補充:數發部次長刪留言了
懶人包:
某位財經網美發文說deepseek 就是騙局,而且根本是抄襲的次等chatGPT
底下數發部次長(林X敬)留言表示他們2048片H800根本不只這個錢,但是被打臉了(已刪
留言)
_
原文
https://bit.ly/42s6iiT
生活中的程式:
這幾天看到政治網紅對於DeepSeek的評論令人瞠目結舌,沒想到往下滑看到數發部次長的奇
葩留言。
難怪有前輩跟我說過:通常想要往上爬,關係比實力更重要。
這些政治網紅對於完全不懂的領域,發文前也不做功課,反正就用政治腦跟自身立場來隨便
胡謅一通,即便錯誤百出,流量卻遠比我看到的任何有關DeepSeek的技術文來的多。
幾點勘誤:
1. 「成本造假,2048片H800就不只550萬鎂」 是錯誤的講法
DeepSeek用2048片H800訓練兩個月,在計算訓練支出上都會用「租賃」或「時間攤提」來計
算,因為這2048片H800在這兩個月後,鐵定會拿來訓練其他模型,硬體成本本來就是會攤提
。
H800租賃價格可以到2~3美元/小時,2048片H800兩個月,差不多就是論文所說的550萬鎂沒
有錯。
2. 「成本造假,沒計入計入資料清理、開發人力」
大部分的語言模型至多都只會公布訓練所需的運算成本,因為會同時開發很多模型,許多人
力都是共用的,各國的薪資水準也都不一樣,並且清理後的資料也可以複用,而訓練的成本
最簡單易算,也較不會有機密的問題。
OpenAI過去透露成本時也都以運算成本為主,DeepSeek沒有比較特別,最後DeepSeek在論文
中也很清楚地提到550萬鎂是單純的『訓練成本』。
3. 「GPT-3訓練一次是1024顆A100,這都比目前DeepSeek的公開或外界推測成本更優秀。」
現在會拿『DeepSeek-V3 跟 GPT-4o』或『DeepSeek-R1 跟 GPT-o1』 對比訓練成本就是因
為他們能力上相近,成本才有可比性。
GPT-3 跟 DeepSeek 的能力天差地遠,時間也差了三四年,拿這兩個放一起比訓練成本就是
在呼攏不懂的人,這麼愛亂比,乾脆拿GPT-2來比算了。
4. DeepSeek 是場套膜騙局,證據是「問他是誰,他會說是ChatGPT」
如果DeepSeek沒有開源,那大多數人都會覺得是騙局沒錯,但問題是他開源了,還把過程與
權重通通公開在網路上,想挑戰或揪錯可以,請拿程式碼或成果說話。
回ChatGPT僅能代表他的訓練資料中有ChatGPT參雜在內,這不意外,許多模型都會有類似問
題。
同樣地,DeepSeek檔敏感詞就是因為伺服器在中國,你不滿意資安或敏感詞你可以自己架一
個一模一樣的。Perplexity 就沒在跟你543的,自己架 DeepSeek 模型,簡單就解決資安或
敏感詞的問題。
5. 混合專家架構(Mixture of Experts)是舊的方法毫無創新
講這個就是沒去看DeepSeek的原始論文,DeepSeek對於過去的混合專家架構有了不少改進,
不然大家都知道有這個方法,怎麼只有DeepSeek弄出來?
DeepSeek證明了推理能力可以用強化學習(Reinforcement Learning)得來,同時還可以被蒸
餾(distill)到更小的模型上,還改進了CUDA Kernel的運算方式,這不是單純用舊方法就跑
出來的。
重點是他還開源,他們把過程中的know-how直接發表出來了。
財經網美原文
https://www.facebook.com/share/p/1BXeDzzQtj/
--