Re: [討論] OpenAI GPT o1模型

工作

59301

OpenAI 最近推出了 GPT-o1，但很多人可能還沒意識到這件事的嚴重性。事實上，OpenAI
已經找到了一條通往 AGI（通用人工智慧）的階梯！這個新模型的關鍵在於，它已經整合了
ToT（思維樹）和 RL（強化學習），在大型語言模型（LLM）領域達到了類似 AlphaGo Zer
o 的水準。

很多人以為 LLM 就是個「刷題機器」，記住了大量的資料，所以我們在人類記憶力上輸了
。但這種想法只能說對一半。之前的 LLM 確實是從大量資料中，透過模式相似性來猜測答
案。模型夠大，猜得也夠準，但一旦遇到需要推理和邏輯的超長尾問題，就掛了。沒有連貫
的推理能力，肯定解不出來。

然而，o1 模型的訓練方式完全不同。它花了大量時間在模型微調上，讓模型針對已知的問
答，把所有的思考過程（CoT）都想出來。網路上很多資料只有問題和答案，中間的推理過
程要嘛沒有，要嘛只提重點。這些都是靠強化學習逼出來的。

如果有興趣，建議大家讀一下 OpenAI 官網的技術報告和論文：

https://openai.com/index/weak-to-strong-generalization/

OPENAI.COM

Weak-to-strong generalization

We present a new research direction for superalignment, together with promising initial results: can we leverage the generalization properties of deep learning to control strong models with weak supervisors?

。重點在這句：「當我們用這種方法，用 GPT-2 級別的模型來監督 GPT-4 在 NLP 任務上
的表現，結果模型的性能通常介於 GPT-3 和 GPT-3.5 之間。」

在這種新機制下，OpenAI 已經不需要再從網路抓資料了。他們可以透過 LLM 之間的互動，
產生問題和答案，進行更廣泛、更完整的訓練。而且這種訓練方式相當於，你雖然只學過小
學數學，但經過長時間的策略搜索和 ToT 機制，類似於 System 2 的思考，你可以解出國
中數學題。

當這些能力達到單一模型的算力極限時，可以透過擴大模型，把新知識裝載進更大的模型，
透過 Transformer 達成 System 1 思考的嵌入。這就像學好國中數學的新模型，開始挑戰
高中數學。提升智力的方式是無限的，只受限於你的 GPU 算力。

你知道嗎，OpenAI 在解決 AIME 2024 的最新題目時，沒有任何過去的考古題可參考，裡面
的推導公式連他們的員工都看不懂。難道還有人以為 AI 是靠背題目來解答的嗎？

: 標題: Re: [討論] OpenAI GPT o1模型

: 時間: Tue Sep 17 12:46:33 2024

: 不就是語言模型+題庫

: 題庫1000題不夠，那就10000題

: 一萬題不夠，那就10萬題

: 看你人的腦袋能裝多少題庫拼的過嗎？

: 但是對那些非一般性的

: 面向多的，沒有標準答案的

: 個別性強，特殊場合，網上找不到答案的

: 資料不足，不完善的

: AI 就嗝了

: 某小氣公司難得花了大錢買了Licence

: 打算明年縮減一半的人力來完成更多的工作

: 只能說這些早就不碰技術的高層

: 異想天開腦袋裝屎

: AI 能解的問題人工早就解了

: 人工不能解的 AI 也不能解

: 但是AI會唬爛很多行不通的答案

: 來浪費人工去驗證

: --

: ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.166.194.68 (臺灣)※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1726629560.A.FD5.html

→ somerabbit1樓工作上一個ticket 用了cursor + o1 preview, 1個小 09/18 11:30

→ somerabbit2樓時就做完了答案還很完美。令人驚艷的是它可以快 09/18 11:30

→ somerabbit3樓速閱讀很多files 然後思考並準確的給出答案 09/18 11:30

OyodoKai4樓現在報名水電學徒還來的急嗎 09/18 11:33

→ 本人5樓我覺得Orion 出來之後可能是agent 完整體，到時可 09/18 11:34

→ 本人6樓能不用外掛任何寫code框架就可以搞定 09/18 11:34

→ ma7217樓9.9 vs 9.11 09/18 11:35

→ 本人8樓9.9 vs 9.11還有幾個r在strawberry 中都屬於token 09/18 11:44

→ 本人9樓切割的蠢問題，不會是o1要處理的重點，覺得AI很愚 09/18 11:44

→ 本人10樓蠢的可以繼續開心很多年 09/18 11:44

HiHiCano11樓樂見Ai取代人類不然每天工作好累 09/18 11:50

→ fallcolor12樓讓llm出題做rl很合理，可是給reward的 label從哪來 09/18 11:52

→ fallcolor13樓呢？如果還是需要人為prompt介入，本質上不算agi 09/18 11:52

→ fallcolor14樓吧 09/18 11:52

NTHUlagka15樓真的未來那些system design跟軟體開發上的know ho 09/18 12:02

→ NTHUlagka16樓w, gpt會也只是時間上的問題了現在報名水電還來得 09/18 12:02

→ NTHUlagka17樓及嗎感覺SWE的生存空間要被壓縮了QQ 09/18 12:02

→ 本人18樓新的rl已經不需人類介入，不是rlhf。你要仔細參考 09/18 12:03

→ 本人19樓我貼的那篇才知道可能的做法，以下僅是個人猜測， 09/18 12:03

→ 本人20樓一開始應該會先以gan為基底方法，有題目有答案但沒 09/18 12:03

→ 本人21樓有cot，訓練時要求llm提供完整cot，然後把每步驟的 09/18 12:03

→ 本人22樓cot都拆解成獨立證明提要求critic llm把關，如果證 09/18 12:03

→ 本人23樓明看不懂就得要求o1往下拆解到critic llm看得懂且 09/18 12:03

→ 本人24樓置信率要非常高。等到這步訓練有成效之後，再請出 09/18 12:03

→ 本人25樓題o1出題給解答o1解，這時會依照既有知識堆疊出一 09/18 12:03

→ 本人26樓個複雜的長尾問題出來讓o1自己解，進而不用再抓取 09/18 12:03

→ 本人27樓網路大量垃圾來訓練model，資料牆問題也被攻克 09/18 12:03

→ zzzxxxqqq28樓9.9 vs 9.11 真的不重要.. 隨便想想都知道 09/18 12:22

→ zzzxxxqqq29樓隨便想像都知道 10年後有多可怕 -.- 09/18 12:23

jeff8589830樓

09/18 12:26

PTT鄉民日記

Re: [討論] OpenAI GPT o1模型

工作