PTT鄉民日記

PC購物板分享連結

Re: [閒聊] M2Ultra在AI比intel+nVIDIA有架構優勢?

PC購物

標籤:閒聊

1673

: 先說我不懂AI運算
: 只是看了林亦的新影片
: https://youtu.be/UsfmqTb2NVY

就鬼扯，我也懶的噴他。現在老黃是遙遙領先所有人，AI全吃，沒什麼好爭辯的。

現在所謂的DL，第一需要的是運算，第二才是記憶體頻寬。
M2Ultra的gpu就27.2tflops(fp32)，跟3080差不多，但ampere有兩倍的(fp16+fp32accumulate)還有4x的(fp16)。現在fp16訓練就很夠了，擔心你可以用fp16+fp32模式，那也是2x你m2 ultra。

https://images.nvidia.com/aem-dam/Solutions/Data-Center/l4/nvidia-ada-gpu-architecture-whitepaper-v2.1.pdf

https://tinyurl.com/yuak5w5d

4090是82.6tflops(fp32)，330.3tflops(fp16)。m2ultra連車尾都看不到，可憐啊。

然後M2Ultra的31.6tops，那應該是int8無誤如果是int4那就更可憐。4090是660.6(int8)tops與1321.2(int4)tops。這已經是被超車好幾十圈了。(tops是inference用的)

H100 datasheet

https://resources.nvidia.com/en-us-tensor-core/nvidia-tensor-core-gpu-datasheet

NVIDIA H100 Tensor Core GPU Datasheet

RESOURCES.NVIDIA.COM

NVIDIA H100 Tensor Core GPU Datasheet

This datasheet details the performance and product specifications of the NVIDIA H100 Tensor Core GPU. It also explains the technological breakthroughs of the NVIDIA Hopper architecture.

https://tinyurl.com/bdfuutbe

NVIDIA H100 Tensor Core GPU Datasheet

RESOURCES.NVIDIA.COM

NVIDIA H100 Tensor Core GPU Datasheet

This datasheet details the performance and product specifications of the NVIDIA H100 Tensor Core GPU. It also explains the technological breakthroughs of the NVIDIA Hopper architecture.

h100 pcie是最低階的
756tflops(tf32)
1513tflop(fp16)

h100是狠狠的虐了所有人包含a100。2x~4x(a100)

https://www.mosaicml.com/blog/amd-mi250

Training LLMs with AMD MI250 GPUs and MosaicML

Training LLMs with AMD MI250 GPUs and MosaicML

With the release of PyTorch 2.0 and ROCm 5.4, we are excited to announce that LLM training works out...

AMD的mi250不到a100的80%，mi300的specs其實跟mi250差不多，mi300主要是apu功能。

只有google的tpu跟intel的gaudi2跟a100有輸有贏。

https://mlcommons.org/en/training-normal-30/

v3.0 Results

MLCommons aims to accelerate machine learning innovation to benefit everyone.

gaudi2在gpt3的訓練大概是h100的1/3性能。

intel為什麼要取消rialto bridge？現在ai當道，fp64強的hpc架構根本毫無用處。AMD因為只有mi300所以只能硬上了，但383tflops(fp16)要怎麼跟1500+tflops的h100比？

intel現在把資源集中在gaudi3/4，期望2年內可以看到老黃的車尾。

有人以為老黃只是因為cuda軟體贏。其實nn很容易移植到其它架構，老黃是硬體大贏＋長期耕耘ai。

--

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.224.249.214 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1688351283.A.3EF.html

→ WYchuang1樓MI300應該沒有跟250差不多 … apu只是其 07/03 10:54

→ WYchuang2樓中一個型號 mi300x才是全部gpu 07/03 10:54

a0000000003樓mi300x我記得fp32沒輸h100多少喔 07/03 11:01

→ a0000000004樓而且老黃是tensor core 07/03 11:01

→ a0000000005樓現在也只有知道多少cu 不知道頻率 07/03 11:01

這根本是外行話。 nn本來就是tensor。有756tflops的tf32幹麼用51tflops的fp32。 h100還有fp8，有些training有用到更是可怕的效率。

→ cor1os6樓樓上射惹 07/03 11:08

E63007樓反正老黃就是拿遊戲卡來撐場子 07/03 11:50

harry8869018樓他計算速度主要是開大batch size 07/03 12:20

→ harry8869019樓這樣確實不用算力也能有效加速運算效 07/03 12:20

→ harry88690110樓率 07/03 12:20

夢裡什麼都有。AMD戰未來。

→ CORYCHAN11樓為何您會得出MI300跟MI250差不多的結論 07/03 12:26

→ CORYCHAN12樓呢？ 07/03 12:26

沒有架構大改。現在公開的數據就沒有變動很大。

spfy13樓先不管IA有沒有輸這麼多那影片下面一堆人 07/03 13:02

→ spfy14樓贊同蘋果要超越老黃看的我好像走錯世界線 07/03 13:03

→ 本人15樓現在一堆在講AI的都讓我覺得很莫名奇妙。 07/03 13:26

→ 本人16樓也有跑ai模型理論很好的人，對硬體完全不 07/03 13:27

→ 本人17樓懂，也是意見很奇杷。 07/03 13:28

iuytjhgf18樓你怎麼會期待讀資訊科的人就會組電腦 07/03 13:35

→ iuytjhgf19樓寫軟體只在意我的模型到底塞不塞的下去 07/03 13:36

a00000000020樓尼484沒看懂我在講啥 07/03 13:51

→ a00000000021樓h100 tf32 756 07/03 13:51

→ a00000000022樓mi250 384 07/03 13:52

→ a00000000023樓mi300x cu數4mi250的1.6倍 07/03 13:52

→ a00000000024樓再加上頻率差尼自己算一下 07/03 13:52

a00000000025樓等等我好像看錯惹 07/03 13:54

a00000000026樓384應該是mi300a的fp16 尷尬 07/03 13:58

Arbin27樓不過就算目前mi300x有接近h100效能好了 07/03 14:48

→ Arbin28樓DL公司應該還是會對他觀望 07/03 14:48

→ Arbin29樓主要目前你各位還是太黏NVDA 07/03 14:49

aegis4321030樓H100強在BF16和自己開發的TF32，這兩 07/03 16:15

延伸閱讀

Re: [閒聊] 顯卡上裝個SSD有沒有搞頭

Re: [閒聊] joeman的礦工紀錄片

[閒聊] M2Ultra在AI比intel+nVIDIA有架構優勢?

[閒聊] 顯卡上裝個SSD有沒有搞頭

[閒聊] joeman的礦工紀錄片

[閒聊] 鬼島買不到的5600X3D

[閒聊] 良興購物ST4000VX016與電話詐騙

Re: [閒聊] 被宏碁保固氣死