※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.228.63.38 (臺灣)※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1737858242.A.BEE.html s2130929211樓重點是Deepseek背後的成本只有ChatGPT的20分之1 01/26 10:34
→ 本人2樓確實,訓練成本這件事情蠻令人訝異的,OpenAi也宣 01/26 10:41
→ 本人3樓布O3-mini將免費了 01/26 10:41
→ TaiwanUp4樓如果不知道是台詞 R1有故事感但無邏輯 結尾有蛇年感 01/26 10:44
breathair5樓只代表對於演算法大科技也要花大錢挖人 01/26 10:45
→ breathair6樓來搞了,算力的投資不會減少,不然等你 01/26 10:45
→ breathair7樓演算法追上,算力又落後了怎辦? 01/26 10:45
strlen8樓r1實際用遠不如抬面上的啦 只有評測嚇人 無庸質疑 01/26 10:55
→ TaiwanUp9樓O1比較像沒有人生經驗學生寫 可以再tune一段小故事 01/26 10:55
→ strlen10樓但deepseek重點在它開源 還公開論文 好耶 作功德 誰 01/26 10:55
→ strlen11樓不愛?載回來用免錢 改免錢的 中國人要作功德當然好 01/26 10:56
→ TaiwanUp12樓R1就每段都小故事 恐怕就是直接從劇本拼湊出來的 01/26 10:56
mamorui13樓pretrain的成本占總成本7-9成,R1是只管posttrain 01/26 10:58
→ mamorui14樓,R1高成本會嚇死人。 01/26 10:58
mamorui15樓然後是DeepSeek-V3宣稱557萬,但strawberry幾個r也 01/26 11:03
→ mamorui16樓會錯的跟其他一模一樣, 如果pretrain全部自己的資 01/26 11:03
→ mamorui17樓料怎麼會錯 01/26 11:03
s21309292118樓 01/26 11:04 mamorui19樓簡單說,成本漂亮那就不要有那麼多別的模型的影子 01/26 11:07
→ mamorui20樓。 01/26 11:07
→ 本人21樓其實樓上有點出問題,pretrain的預標數據集才是最 01/26 11:08
→ 本人22樓貴的,這些可能都是美國公司花大錢去做的 01/26 11:08
→ 本人23樓pretrain資料集需要人工介入標記,這個東西貴鬆鬆 01/26 11:08
mamorui24樓我沒有說不能吹能力,但成本就誇張了,我想看的是D 01/26 11:11
→ mamorui25樓eepSeek從pretrain就是土法煉鋼,那才叫真的沒花這 01/26 11:11
→ mamorui26樓麼多成本。 01/26 11:11
mamorui27樓我沒看那麼多文章,如果有人找到paper解釋DeepSeek 01/26 11:16
→ mamorui28樓v3為什麼strawberry的r幾個錯的跟其他模型一模一 01/26 11:16
→ mamorui29樓樣是理所當然,而且預訓練是很純的資料(這家公司 01/26 11:16
→ mamorui30樓自己收集的資料、沒有借助其他LLM產生好資料 =》 01/26 11:16