[新聞]不，你無法用 600 萬美元複製一個 DeepSee

工作

34205

不，你無法用 600 萬美元複製一個 DeepSeek R1

https://technews.tw/2025/01/28/you-cannot-copy-deepseekr1-with-6m/

中國 AI 新創企業 DeepSeek 最新發布的 R1 模型震驚美國股市，關鍵在於其相對低廉的訓練成本，不過深入分析其過程就知道，並不是花 600 萬美元就能複製一個相同的模型。無論華爾街玩的是什...

中國 AI 新創企業 DeepSeek 最新發布的 R1 模型震驚美國股市，關鍵在於其相對低廉的
訓練成本，不過深入分析其過程就知道，並不是花 600 萬美元就能複製一個相同的模型
。

無論華爾街玩的是什麼套路，DeepSeek R1 模型真正讓人驚歎的，是它極度便宜的訓練成
本，根據 DeepSeek 宣稱，訓練成本僅 557.6 萬美元，幾乎是其他科技巨頭大型語言模
型的十分之一成本，這個費用也差不多是一位 AI 主管的年薪而已。

這個驚人的宣示實際上未必如此驚天動地，我們需要一步步拆解他們的模型訓練方式，就
能了解其中奧妙。

首先，DeepSeek 和 R1 模型並非一步登天，R1 模型的訓練費用其實和去年底發佈的 V3
模型相同，而 V3 模型中的多數功能又和 2024 年初發佈的 V2 模型共用。

在 V2 模型裡，他們導入了兩個重要的元件：DeepSeekMoE 和 DeepSeekMLA，前者代表了
多重專家混合（Mixture of Experts），和 ChatGPT4 一樣，他們將訓練出的 AI 分為多
種專家，根據對話內容調用合適領域的專家，以達成更精準而高效率的回應。後者則是多
頭潛在注意力機制（Multi-Head Latent Attention），在 AI 對話中，需要載入模型和
文本，每個 token 需要對應的 key 和 value，MLA 則能夠壓縮 value 的儲存空間，進
而減少記憶體需求。

https://is.gd/gzBeWB

▲DeepSeek V3 模型架構圖。（Source：Github）

到了 V3 模型，他們再根據以上基礎，導入負載平衡和多重 token 預測機制，進一步提
升訓練效率，根據 DeepSeek 宣稱，訓練 V3 模型總共使用 278.8 萬 H800 GPU 工時，
依每工時 2 美元推算，整體訓練成本就是 557.6 萬美元。

而 R1 模型的訓練成本據稱與 V3 模型相同，換言之，想要做出 R1 模型，並不是拿
H800 跑 280 萬個工時就能做出來，還必須有前置研究、反覆實驗和前置演算法架構。

相反地，從目前實測結果來看 DeepSeek R1 的表現與 ChatGPT O1 確實不相上下，甚至
有自己的優勢，既然 DeepSeek 是開源架構，就代表其他科技巨頭可以用相似的模組，投
入上百萬或上千萬個更高階的 H100 GPU 工時去訓練模組，如此則能獲得十倍於
DeepSeek R1 的成果。

從這個角度來看，你覺得 NVIDIA 有什麼好緊張的嗎？

--
推 pb220918:不爽可以當禽獸五樓是禽獸!! 10/04 22:12
→ pb220918:蓋 10/04 22:12
→ pb220918:蓋 10/04 22:12
→ pb220918:蓋 10/04 22:12
→ Davisss:我是禽獸我真爽我在騎1樓 10/04 22:13

--

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.26.136.149 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1738119530.A.F11.html

boards1樓如果成本這麼低 01/29 10:59

→ boards2樓全世界的核電廠也該關閉了 01/29 10:59

→ boards3樓中國拉一根暗管，偷接OpenAI 、Gemi 01/29 11:00

→ boards4樓ni ，資料還會回傳中國！ 01/29 11:00

→ tgyhuj015樓台灣已經關了阿你質疑台灣政府? 01/29 11:11

bella18156樓DeepSeek有5萬個H100，礙於禁令不 01/29 11:27

→ bella18157樓能明言 01/29 11:27

→ kevinmeng28樓世界怎麼跟得上台灣？終於跟上了 01/29 11:47

shter9樓又不是只有訓練AI要用電，現在一堆 01/29 12:27

→ shter10樓雲端服務算力主機在做其他應用產品 01/29 12:28

→ shter11樓幾年前那些大數據資料中心越存越多 01/29 12:29