[情報] MI300X vs H100 vs H200測試&分析 - semi

股票

71415



標題:
MI300X vs H100 vs H200 Benchmark Part 1: Training – CUDA Moat Still Alive

網址:
https://reurl.cc/oVyd9v

內文:
此篇為semianalysis 測試5個月比較
MI300X H100 H200實際使用的效能以及使用上的現況

下面放上作者的發現總結,詳細請看文章


1. 在紙上比較 FLOP/s 和 HBM 頻寬/容量類似於僅透過檢查百萬像素數來比較相機。判斷?

2. Nvidia 的開箱即用效能和體驗令人驚嘆,我們在基準測試期間沒有遇到任何 Nvidia 特

3. AMD 的開箱即用體驗非常難以使用,需要相當大的耐心和努力才能達到可用狀態。 在我們的大多數基準測試中,AMD PyTorch 的公共 AMD 穩定版本仍然存在問題,我們需要解決方法。

4 如果沒有多個 AMD 工程師團隊對我們遇到的 AMD 軟體錯誤進行分類和修復的支持,AMD 的結果將遠低於 Nvidia。

5 . 我們與 Sustainable Metal Cloud 合作在 256 H100 上運行非官方 MLPerf Training GPT-3 175B,以測試不同 VBoost 設定的效果

6. 對於 AMD 來說,公開穩定發布的軟體的真實世界性能與其紙面銷售的 TFLOP/s 相差甚遠。 Nvidia 的現實世界表現也低於其行銷 TFLOP/s,但相差不大。

7. 與 H100/H200 相比,MI300X 的總擁有成本 (TCO) 較低,但在 AMD 軟體的公共穩定版本上,MI300X 的每 TCO 訓練效能較差。如果使用 AMD 軟體的客製化開發版本,情況就會改變。

8. 訓練效能較弱,MI300X的矩陣乘法微基準測試表明,AMD公開發布的軟體在單節點訓練吞吐量上仍落後於Nvidia的H100和H200。

9. MI300X 的效能受到 AMD 軟體的阻礙。 BF16開發分支上的AMD MI300X軟體具有更好的效能 ,但尚未合併到AMD內部儲存庫的主要分支中。當它合併到主分支和 PyTorch 穩定版本時,Nvidia Blackwell 將已經可供所有人使用。

10. AMD 的訓練表現也受到阻礙,因為 MI300X 無法提供強大的橫向擴展效能。這是由於與Nvidia 對其Nvidia 集體通訊庫(NCCL)、InfiniBand/Spectrum-X 網路結構和交換器的強大整合相比,其ROCm 計算通訊庫(RCCL) 較弱,且AMD 與網路和交換硬體的垂直集成程度較低。

11. 許多 AMD AI 庫都是 NVIDIA AI 庫的分支,導致結果不佳和相容性問題。

12. AMD 客戶傾向於僅使用手動製作的核心進行推理,這意味著它們在非常狹窄的明確定義的用例之外的效能很差,並且不存在快速轉移工作負載的靈活性。


-----
Sent from JPTT on my Google Pixel 7 Pro.

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.12.147.134 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1735005906.A.14B.html
Alwen1樓連H100都打不贏,好慘ㄛ 12/24 10:11
SSglamr2樓卒業 12/24 10:12
tomdavis3樓NV底層蹲了10年 其他人要幾年內追上也不容易 12/24 10:12
sdbb4樓所以obov 早就把AMD 蛋雕 12/24 10:13
pieceioriX5樓AMD是不是要在沙崙建研發中心? 難怪卒業預定 12/24 10:13
stationary6樓難怪教主跳車了 12/24 10:13
zerro77樓H100都已經過時產品還... 12/24 10:13
Alwen8樓難怪aws 裡面的人說沒人要用AMD GPU是真的 12/24 10:14
capssan9樓簡單來說 AMD卒業 12/24 10:14
Alwen10樓AMD今年還是負報酬 12/24 10:15
ck6m45411樓AMD就垃圾沒人要阿,整年還是跌的不是沒原因 12/24 10:16
本人12樓amd軟體太差了,沒想到遊戲顯卡的nv driver值5000也 12/24 10:16
本人13樓能套在AI上 12/24 10:16
k061181214樓教主殞落 12/24 10:17
ck6m45415樓GPU和AI沒一個能打 12/24 10:18
goodjop16樓一個是已經有長遠計畫 一個只是模仿追尾 是要怎麼比 12/24 10:19
dragonjj17樓難怪AMD跌這麼慘...AI上面被海放! 12/24 10:19
NexusPrime18樓真 遙遙領先 12/24 10:22
gbman19樓NV軟體值5000!驅動就看的出來了XD 12/24 10:25
sdbb20樓Obov應該年初或Q1就把AMD 倒給小兒了 12/24 10:25
CCH202221樓 12/24 10:26
CCH202222樓整合度相容度高,NV體驗完勝 12/24 10:26
abc2108699923樓這是什麼AI轉錄之後自動翻譯的文章嗎? 12/24 10:27
abc2108699924樓品質很差 12/24 10:27
sdbb25樓Obov仍大賺,只漏掉tsla 12/24 10:27
gbman26樓AMD還是乖乖做PC CPU X3D和遊戲機SOC就好CC 12/24 10:28
OSDim27樓驅動值五千QQ 12/24 10:28
junior02048628樓陳先生你的科技水平太落後了 12/24 10:28
laogiby29樓AMD電子垃圾 生產出來浪費電的 12/24 10:31
falcon1130樓這驅動現在大概值500b 12/24 10:38