既然有人提推論,我就講看看訓練端
DSv3 論文中最大亮點,可能也是目前看起來崩盤的主要是 $5.77 million 的訓練成本
和他對比的是喇叭哥曾經說 GPT4 花了超過 $100 million 訓練
未公開的 GPT5 據 WSJ 說,每一次六個月訓練週期需要花超過 $500 million
簡單用 GPT-4 : DSv3 = o1 : DSR1 估計 o1,但應該更多啦,不過低估在這邊不重要
整理一下目前已知+估計+rumor
GPT-3 : ~$4.6 million
DeepSeekV3 (DSv3): ~$5.576 million
DeepSeekR1 (DSR1): ~$12 million
GPT-4 : >$100 million
OpenAI's o1 Model: ~$200 million
GPT-5 : ~$500 million
也就是說目前市面上的訓練成本會下降 ~50 倍
(20 - 50 之間,看你拿誰當標準)
反過來說是同樣的預算下,若忽視模型設計和 tokenization
模型的迭代週期也會暴漲約 50 倍
我敢說現在 Meta, OpenAI, MS, Google 的伺服器裡面一定滿滿都是 DS
而且在未來六個月會不斷看到新聞是
某某模型訓練成本下降 10% 或加快 10%
或是 OpenAI 成功部屬更低成本的模型,赤字大幅下滑
這樣的新聞
另外 DSR1 也展現了更進化的 CoT,只是單單將推論過程暴露給 MoE
並允許退回驗證回答,這樣的 pipeline 就足以讓模型更好
而且只要 test-time 時間越長,成果就成線性的更好
其實這根本是簡單到不行的想法,效果卻好得嚇人
這些巨頭絕對有能力在短時間內複製出來
-
結論是
我覺得 DS 的出現不會讓資本資出減少,反而是開啟另一輪軍備競賽
只要巨頭們意識到其他巨頭正在複製 DS 的成功,而且甚至更有效率的方法
他們只能繼續加大支出,而且部分的巨頭可能可以轉虧為盈,譬如 OpenAI
加速 50 倍很多嗎?你加速 50 倍,我就要加速 100 倍
大家都加速一百倍的時候,我要加速五百倍,直到開發出 AGI 為止
因為現在所有人都相信 AGI 和 no AGI 就是 0 和 1 的差距
先得到聖杯的人贏者通吃
: DeepSeek這塊有幾個看法 Training端就等之後瓜出來再吃
: 在Inference這塊 因為受限於MoE 所有推論成本可以降下來 但需求變高的是用記憶空間
: 和各個node之間的通訊開銷 以及軟體上cpu/gpu的load balance
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.193.249.136 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1737964753.A.06E.html→ mystage1樓不會通吃,AI模型沒有技術壁壘 01/27 16:02
→ mystage2樓頂尖團隊間就是幾個月的差距而已 01/27 16:03
AGI 絕對有技術壁壘,光是目前 OpenAI 和 Google 就差了至少半代
壁壘不只是演算法,可能是算力+演算法+資料
yjjia3樓正確,但就股票而言短空是避免不了的 01/27 16:04
event14084724樓很好 很積極的想法 再多來一點 01/27 16:05
不看訓練成本,光是看「越長的 CoT 結果會越好」
就想不到算力需求下降的可能
gladopo5樓這波我還真覺得agi會早點到來.. 01/27 16:06
yjjia6樓本來只有兩大國可以玩的東西,現在發現其他國家也 01/27 16:07
→ yjjia7樓能加入,ai軍備競賽提前降臨 01/27 16:07
tradeent8樓AGI根本不重要 01/27 16:07
如果你的 AGI 和我的 AGI 定義一樣,怎麼會不重要呢?AGI 可以
解決能源、飢荒、疾病甚至軍事政治法律問題,當然重要
有這種東西怎麼可能不會盈利?
→ tradeent9樓產品落地開始盈利才重要 01/27 16:07
→ tradeent10樓而且投資者也會相信 01/27 16:07
DecemberLV11樓方法開源了 剩下看硬體競賽了 還是不變道理 01/27 16:07
→ tradeent12樓客製化特定任務AI比AGI更專業 01/27 16:07
shepherdd3513樓你們以為老黃去中國自拍 來台灣簽名的喔 01/27 16:08
→ Roger556614樓你這想法有點危險 美中競爭下全球市場分割 01/27 16:08
→ jasonkuo194315樓軍備競賽還是會一直持續下去,DS的出現只會加速全球 01/27 16:08
→ jasonkuo194316樓AI的推動,硬體規格的需求還是會大幅增加,這不是 01/27 16:08
→ jasonkuo194317樓很簡單的送分題嗎 01/27 16:08
→ Roger556618樓現在GPU需求減少降規 美國難吃中國與開發中國家GPU 01/27 16:09
tales121619樓市場找理由回調,不然再繼續漲都要衝擊6600,最後 01/27 16:09
→ tales121620樓還是要跌 01/27 16:09
→ Roger556621樓市場可能變小下 未來的營收獲利下降 股價都難維持 01/27 16:10
lovepork22樓gpt的全名Generative Pre-Trained Transformers 01/27 16:11
Liandh23樓訓練成本再低,應用推動還是要算力的啊,抄底NV! 01/27 16:11
→ Roger556624樓股價主要連結EPS與估值 跟公司投資的關聯又不太大 01/27 16:11
→ lovepork25樓transform architecture類似於attention model 01/27 16:11
→ 本人26樓DSv3不是還是用H800嗎?哪裡市場變小? 01/27 16:12
→ 本人27樓NV的營收都來自這些巨頭啊,怎麼關聯不大呢 01/27 16:13
→ 本人28樓DS的出現還是撼動不了NV的技術壁壘 01/27 16:13
→ Roger556629樓你覺DS以後會買中國GPU還是繼續買NV? 01/27 16:13
→ 本人30樓中國哪來的GPU? 01/27 16:14