[新聞]不,你無法用 600 萬美元複製一個 DeepSee

工作

34205

不,你無法用 600 萬美元複製一個 DeepSeek R1

https://technews.tw/2025/01/28/you-cannot-copy-deepseekr1-with-6m/

中國 AI 新創企業 DeepSeek 最新發布的 R1 模型震驚美國股市,關鍵在於其相對低廉的
訓練成本,不過深入分析其過程就知道,並不是花 600 萬美元就能複製一個相同的模型


無論華爾街玩的是什麼套路,DeepSeek R1 模型真正讓人驚歎的,是它極度便宜的訓練成
本,根據 DeepSeek 宣稱,訓練成本僅 557.6 萬美元,幾乎是其他科技巨頭大型語言模
型的十分之一成本,這個費用也差不多是一位 AI 主管的年薪而已。

這個驚人的宣示實際上未必如此驚天動地,我們需要一步步拆解他們的模型訓練方式,就
能了解其中奧妙。

首先,DeepSeek 和 R1 模型並非一步登天,R1 模型的訓練費用其實和去年底發佈的 V3
模型相同,而 V3 模型中的多數功能又和 2024 年初發佈的 V2 模型共用。

在 V2 模型裡,他們導入了兩個重要的元件:DeepSeekMoE 和 DeepSeekMLA,前者代表了
多重專家混合(Mixture of Experts),和 ChatGPT4 一樣,他們將訓練出的 AI 分為多
種專家,根據對話內容調用合適領域的專家,以達成更精準而高效率的回應。後者則是多
頭潛在注意力機制(Multi-Head Latent Attention),在 AI 對話中,需要載入模型和
文本,每個 token 需要對應的 key 和 value,MLA 則能夠壓縮 value 的儲存空間,進
而減少記憶體需求。

https://is.gd/gzBeWB


▲DeepSeek V3 模型架構圖。(Source:Github)

到了 V3 模型,他們再根據以上基礎,導入負載平衡和多重 token 預測機制,進一步提
升訓練效率,根據 DeepSeek 宣稱,訓練 V3 模型總共使用 278.8 萬 H800 GPU 工時,
依每工時 2 美元推算,整體訓練成本就是 557.6 萬美元。

而 R1 模型的訓練成本據稱與 V3 模型相同,換言之,想要做出 R1 模型,並不是拿
H800 跑 280 萬個工時就能做出來,還必須有前置研究、反覆實驗和前置演算法架構。

相反地,從目前實測結果來看 DeepSeek R1 的表現與 ChatGPT O1 確實不相上下,甚至
有自己的優勢,既然 DeepSeek 是開源架構,就代表其他科技巨頭可以用相似的模組,投
入上百萬或上千萬個更高階的 H100 GPU 工時去訓練模組,如此則能獲得十倍於
DeepSeek R1 的成果。

從這個角度來看,你覺得 NVIDIA 有什麼好緊張的嗎?


--
推 pb220918:不爽可以當禽獸 五樓是禽獸!! 10/04 22:12
→ pb220918:蓋 10/04 22:12
→ pb220918:蓋 10/04 22:12
→ pb220918:蓋 10/04 22:12
→ Davisss:我是禽獸 我真爽 我在騎1樓 10/04 22:13

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.26.136.149 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1738119530.A.F11.html
boards1樓如果成本這麼低 01/29 10:59
boards2樓全世界的核電廠也該關閉了 01/29 10:59
boards3樓中國拉一根暗管,偷接OpenAI 、Gemi 01/29 11:00
boards4樓ni ,資料還會回傳中國! 01/29 11:00
tgyhuj015樓台灣已經關了阿 你質疑台灣政府? 01/29 11:11
bella18156樓DeepSeek有5萬個H100,礙於禁令不 01/29 11:27
bella18157樓能明言 01/29 11:27
kevinmeng28樓世界怎麼跟得上台灣?終於跟上了 01/29 11:47
shter9樓又不是只有訓練AI要用電,現在一堆 01/29 12:27
shter10樓雲端服務算力主機在做其他應用產品 01/29 12:28
shter11樓幾年前那些大數據資料中心越存越多 01/29 12:29
shter12樓累積下去能源需求只會擴張而已 01/29 12:29
kingof30313樓一看就知道中國在騙人 多呆才相信 01/29 12:42
cityhunter0414樓最大的優勢就是會幫忙言論審查…厲 01/29 12:48
cityhunter0415樓害厲害! 01/29 12:48
zombiechen16樓前天吹deep search 的帳號今天都躲 01/29 13:00
zombiechen17樓起來不見了 01/29 13:00
drea18樓DS厲害的是晶片不用算入成本,無敵 01/29 13:13
peter666671219樓十倍工時 = 十倍成果 笑了 01/29 13:19
afking20樓問就是繼續買進 01/29 13:53
kaltu21樓這整個成本什麼時候audit報告會出來 01/29 14:05
kaltu22樓 01/29 14:05
jhangyu23樓有夠lag,berkley實驗室 01/29 14:17
jhangyu24樓已經用30美元複製成果了還在洗 01/29 14:17
straggler725樓糾結在成本怎麼算沒太大意義 01/29 14:24
admon26樓成本也許誇大 但從結果論看並不是全 01/29 14:53
admon27樓 01/29 14:53
jason9081428樓「並不是拿 H800 跑 280 萬個工時 01/29 15:03
jason9081429樓就能做出來,還必須有前置研究、反 01/29 15:03
jason9081430樓覆實驗和前置演算法架構」這段到底 01/29 15:03
更多新聞
[新聞] 美海軍開出第1槍!全面禁止使用DeepSeek
[新聞] 除夕夜驚傳竹科瞬間壓降 工程師嚇到拋下碗筷衝回廠
[新聞] 點名台灣晶片!川普:很快將對半導體、
[新聞] 稱台灣掌控98%晶片市場 川普祭重拳:我
[新聞] 中國AI DeepSeek標榜「低成本」 業界懷疑
[新聞] 市值蒸發19.7兆! 輝達聲明:DeepSeek未
[新聞] 川普再提台灣:98%的晶片生意去台灣了
[新聞]成本低 98% 引起科技圈震撼,Deepseek 令