Re: [閒聊] 關於30系列的cuda core？

PC購物

23170

: 逛了一下對岸nga，有些文章提到：
: 1.這個cuda數量是等效數量,實際物理上只有一半,只是現在安培架構吞吐指令數翻倍了
: ,並不是所有的指令都能合並吞吐,所以這麽寫其實是不合適的。
: 2.這次列出3090有一萬個，3080有8000+個
: 其實是不是有點類似於超線程的意思？
: 每個物理core有兩個fp32計算單元
: 所以算力大約提升兩倍？
: 實際上die里真正的物理核心只有/2這麽多？
: 是的，所以70的CUDA/2的話，傳統性能可能還是打不過80ti，加上RTX才能達到老黃ppt
: 寫的性能。
: 以上，
: 分享一下不同的看法，
: 我也不是對這塊專業領域的，如果最後有錯請勿見怪。

:

前幾天NV公佈了詳細的Ampere繪圖/遊戲卡架構資料
參考：

https://tinyurl.com/y4luadcm

對於30系列遊戲卡新架構的設計明瞭許多

NV這次對於Ampere繪圖架構(GA102之後晶片)的改進
我覺得可以說相當高明，新架構FP32運算效能比上代大幅度提昇
不過NV這次新定義的CUDA數量也有引起一些討論

從過往近代NV的GPU來看，每一個CUDA流處理器
通常會包含一個FP32運算單元和一個INT32運算單元

https://i.imgur.com/EjVHF1r.jpg

上圖是Turing架構TU102的SM結構圖
一共有64個FP32單元和64個INT32單元
以及8個Tensor Core和1組RT Core
共用96KB的L1快取

https://i.imgur.com/tc4e5p3.jpg

這次Ampere架構GA102的SM結構圖
總共有64個FP32單元和64個改良的INT32單元
以及4個改良的第3代Tensor Core和1組第2代RT Core
共用的L1快取加大至128KB

這次架構奧妙之處在於加大規模改良的INT32單元
在執行INT32運算時，也能夠穿插同時執行FP32運算
有點類似像Intel CPU的超執行序調度設計
也有點像AMD過往推土機架構一模雙核(NV反過來增加浮點單元)
統計近年普遍的新3D遊戲
使用INT32的運算指令平均約佔FP32指令的1/3～1/4而已
與其讓INT32單元閒置，改良後讓它也能處理FP32運算
能夠進一步來提昇電晶體線路利用效率
這次的新架構設計，電晶體數只需增加約50%，功耗提高約40%
就能換來帳面理論值2倍的FP32運算效能

所以GA102的SM結構
若以過往一個FP32單元搭配一個INT32單元來看
和Turing一樣是每組SM有64個"CUDA"
但以FP32單元數量來看，因為INT32單元也具有FP32運算能力
NV認為可看作是128個FP32單元
也就是NV目前公佈30系列的CUDA數量了
這也解釋為何之前一些爆料者標出的CUDA規格數
實際上NV公佈30系列後的規格CUDA數卻是翻倍的

https://i.imgur.com/4C4FH8r.jpg

5248→10496 RTX3090
4352→8704 RTX3080
2944→5888 RTX3070
因為AIC板卡廠在初期拿到的資料也是用傳統CUDA數定義去計算
實際NV之後公佈的規格則用FP32單元數量來計算CUDA數

這次的設計
如果一款遊戲是大量使用FP32指令運算
那30系列相對於20系列顯卡提昇的幅度就非常大
如同NV發佈會上的效能數據

https://i.imgur.com/f0QBvZY.png

因30系列每SM的FP32處理能力理論值是20系列的二倍
但如果遊戲中使用INT32指令的比例愈高
那麼30系列領先20系列的幅度可能會被拉近
因為30系列每組SM中仍然是64個INT32單元
從之前B站偷跑的遊戲測試影片也能觀察到這現象

https://i.imgur.com/DuipsDM.png

有些遊戲領先的幅度較大，有些遊戲領先幅度相對較少

我覺得這次NV新架構是很有效率的設計
AMD和Intel未來的顯示卡
可能也可參考這樣的設計方向
--

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 218.187.96.230 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1599826553.A.76B.html

louisxxiii1樓QQ這篇有點燒到我出來溫度如果不是太誇張 09/11 20:20

→ louisxxiii2樓還真的有點想換呢 09/11 20:20

→ 本人3樓這次新架構提昇效益很大也算是彌補了使用三星製程 09/11 20:22

jaspergod4樓比較好奇這樣的騷操作在機器學習有影響嗎QQ? 09/11 20:32

s81010265樓感謝解說 09/11 20:34

MK476樓推 09/11 20:41

→ tsopk451687樓機器學習ㄧ般情況都是FP32在運算，所以效能相對20系 09/11 20:42

→ tsopk451688樓列應該會顯著提升 09/11 20:42

這是Ampere架構運算卡GA100的SM結構圖 CUDA仍然是傳統獨立一組FP32單元和一組INT32單元另外還配置獨立的FP64單元，共用192KB的L1快取 GA100的Tenser Core負責處理FP16、FP8、FP4...運算還可以處理FP16/FP32的混合精度運算所以這次繪圖晶片GA102特化FP32的設計主要提昇的是FP32的運算效能如果使用的環境以FP16運算為重，提昇效益可能就較有限不過這次第三代的Tenser Core效率還是會比前代架構高

bunjie9樓解說清楚推一個 09/11 20:45

k564855057710樓單8pin RTX3050 效能有2070s itx 09/11 20:50

→ k564855057711樓短卡，我買兩張起來供 09/11 20:50

Jokering556612樓雖然不懂但是看到遊戲＋40%就夠了 09/11 20:56

→ NanaMizuki13樓反正對一般人來說看到cuda暴增就覺得效能也是暴增 09/11 21:18

richard8201014樓感謝解說，還以為製程提升足以讓CUDA翻倍+暴增太玄 09/11 21:26

qweertyui89115樓內顯也能這樣搞嗎? 09/11 21:26

kuninaka16樓推 09/11 21:29

→ friedpig17樓這次架構也幾乎是暴增了原本int 32 跟fp32可以一起 09/11 21:33

→ friedpig18樓開但是int空閒可能太多換成fp32完整一組相當於 09/11 21:33

→ friedpig19樓以前的兩倍了不過對上一代增幅就稍微小一點點 09/11 21:33

qaz1357920樓等待3050不然就便宜找2060s 970該退休啦 09/11 21:36

→ friedpig21樓有傳言10月就會有60了可能中低階會比上一代的時間 09/11 21:38

→ friedpig22樓差小一點點早點出來畢竟AMD主力會往那塊打不可 09/11 21:38

→ friedpig23樓能放空 09/11 21:38

Marlboro2724樓影馳3080 5499羊可以參考下 3080的價格了 09/11 22:16

→ kimula0125樓以後遊戲廠應該會慢慢對這個優化 09/11 23:05

pc080526樓這代感覺太吃電，/cdn-cgi/l/email-protection 09/12 00:04

vocaloid0227樓看遊戲嗎 09/12 00:18

→ vocaloid0228樓不知道黑沙是吃FP32? 09/12 00:18

shanzhang29樓推 09/12 01:48

→ enjoynight30樓請教這篇看得出來對於影片轉檔輸出的幫助嗎 09/12 11:55

PTT鄉民日記

Re: [閒聊] 關於30系列的cuda core？

PC購物