建議先去看LATS 比較好理解什麼叫方法論
簡單說R1是一套"如何讓LLM可以做深度思考"的方法論
原本要讓LLM做深度思考 之前的做法一律都是COT
比如把每次LLM的輸入輸出當作一個節點
把多個節點做評分 最終選擇整條鏈評分最高的項目 即MCTS概念
這就像是alphago那樣 每次棋步後面都要估算後面幾十步對於這步的總評分(勝率)
LATS就是用LangGraph去實現MCTS的COT 這是方法論 所以可以套用任何LLM
你替換任何LLM LATS都能提升輸出成果
GPT-o1(原q* project)採用人工先寫好大量的推論步驟去保證COT品質
並非直接讓AI去隨意生成許多條節點再自我評分 而是人工先標註什麼是好推論
因此人工撰寫教科書等級的推論就是o1高成本最主要的因素
(這也是CloseAI藏起來的主因 這個很貴不能給其他人看到XD)
就像alphago master需要挖出所有頂尖對局棋譜然後數位化
R1則是捨棄了節點拆步驟思維 直接讓LLM去隨意探索可能方式
在這個情況下R1反而做出了各種有創意的推論方式
就像是alphago zero 自行探索反而下出自己一套邏輯
如同LATS可以替換任何的LLM R1也可以使用任何的LLM去做這件事
實驗室復現R1是指拿一個LLM 做這個方法論 看可以拿到AI怎麼做推論過程
復現的結論也高度一致 使用越優秀的LLM當作基底 可以拿到更好的推論過程
所以任何LLM都可以做R1 就跟任何LLM都可以套LATS類似
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.231.98.6 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1738140736.A.CDC.htmltr9201樓Openapi 都跳出來質疑有distill 痕 01/29 17:02
→ tr9202樓跡了,你回那麼嗆小心被打臉啊 01/29 17:02
quartics3樓你說的跟本不是什麼新技術,也跟di 01/29 17:07
→ quartics4樓stilled 不衝突 01/29 17:07
馬上就飛一隻出來了 不是什麼新技術 那openai google meta怎麼不先做(挖鼻
whizz5樓不然這樣啦 deepseek開直播訓練 01/29 17:19
→ whizz6樓用2000塊 H800訓練來看看啊 01/29 17:19
才剛講完馬上就來兩個青鳥XDDDD 都有實驗室用30鎂就復現了
tr9207樓可以用30鎂就復現,那DS花550萬鎂 01/29 17:34
→ tr9208樓幹嘛XDD!! 01/29 17:34
一個是先人研究出方法 一個只是照用別人的方法
你會說你高中就學會牛頓高斯想幾十年的東西 所以牛頓高斯在浪費人生?
tr9209樓以你的邏輯,R1是用人家砸大錢訓練 01/29 17:39
→ tr92010樓出來的LLM來前進,那些砸大錢的公 01/29 17:39
→ tr92011樓司在浪費人生? 01/29 17:39
"可以用30鎂就復現,那DS花550萬鎂幹嘛XDD!" 這句話是你說的又不是我說的
我現在一整個黑人問號
tr92012樓一句話啦,你敢保證Deepseek沒有用 01/29 17:43
→ tr92013樓Distill技術?如果不敢保證,就把 01/29 17:43
→ tr92014樓隨便罵人青鳥字眼吞回去 01/29 17:43
master3215樓我是覺得盡量不要一開始就把人打入 01/29 18:14
→ master3216樓某一族群,科技板不該這樣 01/29 18:14
lusifa200717樓政治立場帶入單純技術討論 碩士用 01/29 18:34
→ lusifa200718樓雞腿換的? 01/29 18:34
straggler719樓純技術討論? 我信你個鬼! 01/29 18:55
→ aria052020樓但我也不是耶XD 單純就事論事 01/29 19:20
→ aria052021樓看我以往推文就知道我不是XD 01/29 19:21
ctw0122樓這樣受益良多感謝,另外想詢問因為 01/29 19:26
→ ctw0123樓deepseek 似乎沒有公開他們這套方 01/29 19:26
→ ctw0124樓法論是對哪個LLM模型,現在openai 01/29 19:26
→ ctw0125樓質疑distill 是質疑他們使用的LLM 01/29 19:26
→ ctw0126樓對chatgpt distill然後再用這套方 01/29 19:26
→ ctw0127樓法論嗎? 01/29 19:26
這麼說很有可能 deepseek v3本身應該就是幹了很多資料XD
→ ctw0128樓因為本身不是做NLP相關的,以前也 01/29 19:27
→ ctw0129樓沒接觸多少ai研究,如果問了蠢問題 01/29 19:27
→ ctw0130樓敬請見諒 01/29 19:27
LLM終於來到了zero的時代 我對這點是蠻興奮的