[情報] MI300X vs H100 vs H200測試&分析 - semi

股票

71415

標題[情報] MI300X vs H100 vs H200測試&分析 - semi

標題：
MI300X vs H100 vs H200 Benchmark Part 1: Training – CUDA Moat Still Alive

網址：
https://reurl.cc/oVyd9v

MI300X vs H100 vs H200 Benchmark Part 1: Training – CUDA Moat Still Alive

Intro SemiAnalysis has been on a five-month long quest to settle the reality of MI300X. In theory, the MI300X should be at a huge advantage over Nvidia’s H100 and H200...

內文：
此篇為semianalysis 測試5個月比較
MI300X H100 H200實際使用的效能以及使用上的現況

下面放上作者的發現總結，詳細請看文章

1. 在紙上比較 FLOP/s 和 HBM 頻寬/容量類似於僅透過檢查百萬像素數來比較相機。判斷?

2. Nvidia 的開箱即用效能和體驗令人驚嘆，我們在基準測試期間沒有遇到任何 Nvidia 特

3. AMD 的開箱即用體驗非常難以使用，需要相當大的耐心和努力才能達到可用狀態。在我們的大多數基準測試中，AMD PyTorch 的公共 AMD 穩定版本仍然存在問題，我們需要解決方法。

4 如果沒有多個 AMD 工程師團隊對我們遇到的 AMD 軟體錯誤進行分類和修復的支持，AMD 的結果將遠低於 Nvidia。

5 . 我們與 Sustainable Metal Cloud 合作在 256 H100 上運行非官方 MLPerf Training GPT-3 175B，以測試不同 VBoost 設定的效果

6. 對於 AMD 來說，公開穩定發布的軟體的真實世界性能與其紙面銷售的 TFLOP/s 相差甚遠。 Nvidia 的現實世界表現也低於其行銷 TFLOP/s，但相差不大。

7. 與 H100/H200 相比，MI300X 的總擁有成本 (TCO) 較低，但在 AMD 軟體的公共穩定版本上，MI300X 的每 TCO 訓練效能較差。如果使用 AMD 軟體的客製化開發版本，情況就會改變。

8. 訓練效能較弱，MI300X的矩陣乘法微基準測試表明，AMD公開發布的軟體在單節點訓練吞吐量上仍落後於Nvidia的H100和H200。

9. MI300X 的效能受到 AMD 軟體的阻礙。 BF16開發分支上的AMD MI300X軟體具有更好的效能，但尚未合併到AMD內部儲存庫的主要分支中。當它合併到主分支和 PyTorch 穩定版本時，Nvidia Blackwell 將已經可供所有人使用。

10. AMD 的訓練表現也受到阻礙，因為 MI300X 無法提供強大的橫向擴展效能。這是由於與Nvidia 對其Nvidia 集體通訊庫(NCCL)、InfiniBand/Spectrum-X 網路結構和交換器的強大整合相比，其ROCm 計算通訊庫(RCCL) 較弱，且AMD 與網路和交換硬體的垂直集成程度較低。

11. 許多 AMD AI 庫都是 NVIDIA AI 庫的分支，導致結果不佳和相容性問題。

12. AMD 客戶傾向於僅使用手動製作的核心進行推理，這意味著它們在非常狹窄的明確定義的用例之外的效能很差，並且不存在快速轉移工作負載的靈活性。

-----
Sent from JPTT on my Google Pixel 7 Pro.

--

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.12.147.134 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1735005906.A.14B.html

→ Alwen1樓連H100都打不贏，好慘ㄛ 12/24 10:11

SSglamr2樓卒業 12/24 10:12

tomdavis3樓NV底層蹲了10年其他人要幾年內追上也不容易 12/24 10:12

sdbb4樓所以obov 早就把AMD 蛋雕 12/24 10:13

pieceioriX5樓AMD是不是要在沙崙建研發中心? 難怪卒業預定 12/24 10:13

stationary6樓難怪教主跳車了 12/24 10:13

zerro77樓H100都已經過時產品還... 12/24 10:13

→ Alwen8樓難怪aws 裡面的人說沒人要用AMD GPU是真的 12/24 10:14

capssan9樓簡單來說 AMD卒業 12/24 10:14

→ Alwen10樓AMD今年還是負報酬 12/24 10:15

ck6m45411樓AMD就垃圾沒人要阿，整年還是跌的不是沒原因 12/24 10:16

→ 本人12樓amd軟體太差了，沒想到遊戲顯卡的nv driver值5000也 12/24 10:16

→ 本人13樓能套在AI上 12/24 10:16

k061181214樓教主殞落 12/24 10:17

→ ck6m45415樓GPU和AI沒一個能打 12/24 10:18

→ goodjop16樓一個是已經有長遠計畫一個只是模仿追尾是要怎麼比 12/24 10:19

dragonjj17樓難怪AMD跌這麼慘...AI上面被海放! 12/24 10:19

NexusPrime18樓真遙遙領先 12/24 10:22

gbman19樓NV軟體值5000!驅動就看的出來了XD 12/24 10:25

sdbb20樓Obov應該年初或Q1就把AMD 倒給小兒了 12/24 10:25

→ CCH202221樓

12/24 10:26

→ CCH202222樓整合度相容度高，NV體驗完勝 12/24 10:26

abc2108699923樓這是什麼AI轉錄之後自動翻譯的文章嗎？ 12/24 10:27

→ abc2108699924樓品質很差 12/24 10:27

→ sdbb25樓Obov仍大賺，只漏掉tsla 12/24 10:27

gbman26樓AMD還是乖乖做PC CPU X3D和遊戲機SOC就好CC 12/24 10:28

OSDim27樓驅動值五千QQ 12/24 10:28

junior02048628樓陳先生你的科技水平太落後了 12/24 10:28

laogiby29樓AMD電子垃圾生產出來浪費電的 12/24 10:31

falcon1130樓這驅動現在大概值500b 12/24 10:38

PTT鄉民日記

[情報] MI300X vs H100 vs H200測試&分析 - semi

股票