Re: [討論] OpenAI GPT o1模型

工作

59301

OpenAI 最近推出了 GPT-o1,但很多人可能還沒意識到這件事的嚴重性。事實上,OpenAI
已經找到了一條通往 AGI(通用人工智慧)的階梯!這個新模型的關鍵在於,它已經整合了
ToT(思維樹)和 RL(強化學習),在大型語言模型(LLM)領域達到了類似 AlphaGo Zer
o 的水準。

很多人以為 LLM 就是個「刷題機器」,記住了大量的資料,所以我們在人類記憶力上輸了
。但這種想法只能說對一半。之前的 LLM 確實是從大量資料中,透過模式相似性來猜測答
案。模型夠大,猜得也夠準,但一旦遇到需要推理和邏輯的超長尾問題,就掛了。沒有連貫
的推理能力,肯定解不出來。

然而,o1 模型的訓練方式完全不同。它花了大量時間在模型微調上,讓模型針對已知的問
答,把所有的思考過程(CoT)都想出來。網路上很多資料只有問題和答案,中間的推理過
程要嘛沒有,要嘛只提重點。這些都是靠強化學習逼出來的。

如果有興趣,建議大家讀一下 OpenAI 官網的技術報告和論文:
https://openai.com/index/weak-to-strong-generalization/

。重點在這句:「當我們用這種方法,用 GPT-2 級別的模型來監督 GPT-4 在 NLP 任務上
的表現,結果模型的性能通常介於 GPT-3 和 GPT-3.5 之間。」

在這種新機制下,OpenAI 已經不需要再從網路抓資料了。他們可以透過 LLM 之間的互動,
產生問題和答案,進行更廣泛、更完整的訓練。而且這種訓練方式相當於,你雖然只學過小
學數學,但經過長時間的策略搜索和 ToT 機制,類似於 System 2 的思考,你可以解出國
中數學題。

當這些能力達到單一模型的算力極限時,可以透過擴大模型,把新知識裝載進更大的模型,
透過 Transformer 達成 System 1 思考的嵌入。這就像學好國中數學的新模型,開始挑戰
高中數學。提升智力的方式是無限的,只受限於你的 GPU 算力。

你知道嗎,OpenAI 在解決 AIME 2024 的最新題目時,沒有任何過去的考古題可參考,裡面
的推導公式連他們的員工都看不懂。難道還有人以為 AI 是靠背題目來解答的嗎?


: 標題: Re: [討論] OpenAI GPT o1模型

: 時間: Tue Sep 17 12:46:33 2024

:  

:  

: 不就是語言模型+題庫

:  

: 題庫1000題不夠,那就10000題

: 一萬題不夠,那就10萬題

: 看你人的腦袋能裝多少題庫 拼的過嗎?

:  

: 但是對那些非一般性的

: 面向多的,沒有標準答案的

: 個別性強,特殊場合,網上找不到答案的

: 資料不足,不完善的

:  

: AI 就嗝了

:  

: 某小氣公司 難得花了大錢 買了Licence

: 打算明年縮減一半的人力來完成更多的工作

:  

: 只能說這些早就不碰技術的高層

: 異想天開 腦袋裝屎

:  

: AI 能解的問題 人工早就解了

: 人工不能解的 AI 也不能解

: 但是AI會唬爛很多行不通的答案

: 來浪費人工去驗證

:  

: --

: ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.166.194.68 (臺灣)※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1726629560.A.FD5.html
somerabbit1樓工作上一個ticket 用了cursor + o1 preview, 1個小 09/18 11:30
somerabbit2樓時就做完了 答案還很完美。 令人驚艷的是它可以快 09/18 11:30
somerabbit3樓速閱讀很多files 然後思考 並準確的給出答案 09/18 11:30
OyodoKai4樓現在報名水電學徒還來的急嗎 09/18 11:33
本人5樓我覺得Orion 出來之後可能是agent 完整體,到時可 09/18 11:34
本人6樓能不用外掛任何寫code框架就可以搞定 09/18 11:34
ma7217樓9.9 vs 9.11 09/18 11:35
本人8樓9.9 vs 9.11還有幾個r在strawberry 中都屬於token 09/18 11:44
本人9樓切割的蠢問題,不會是o1要處理的重點,覺得AI很愚 09/18 11:44
本人10樓蠢的可以繼續開心很多年 09/18 11:44
HiHiCano11樓樂見Ai取代人類 不然每天工作好累 09/18 11:50
fallcolor12樓讓llm出題做rl很合理,可是給reward的 label從哪來 09/18 11:52
fallcolor13樓呢? 如果還是需要人為prompt介入,本質上不算agi 09/18 11:52
fallcolor14樓 09/18 11:52
NTHUlagka15樓真的 未來那些system design跟軟體開發上的know ho 09/18 12:02
NTHUlagka16樓w, gpt會也只是時間上的問題了 現在報名水電還來得 09/18 12:02
NTHUlagka17樓及嗎 感覺SWE的生存空間要被壓縮了QQ 09/18 12:02
本人18樓新的rl已經不需人類介入,不是rlhf。你要仔細參考 09/18 12:03
本人19樓我貼的那篇才知道可能的做法,以下僅是個人猜測, 09/18 12:03
本人20樓一開始應該會先以gan為基底方法,有題目有答案但沒 09/18 12:03
本人21樓有cot,訓練時要求llm提供完整cot,然後把每步驟的 09/18 12:03
本人22樓cot都拆解成獨立證明提要求critic llm把關,如果證 09/18 12:03
本人23樓明看不懂就得要求o1往下拆解到critic llm看得懂且 09/18 12:03
本人24樓置信率要非常高。等到這步訓練有成效之後,再請出 09/18 12:03
本人25樓題o1出題給解答o1解,這時會依照既有知識堆疊出一 09/18 12:03
本人26樓個複雜的長尾問題出來讓o1自己解,進而不用再抓取 09/18 12:03
本人27樓網路大量垃圾來訓練model,資料牆問題也被攻克 09/18 12:03
zzzxxxqqq28樓9.9 vs 9.11 真的不重要.. 隨便想想都知道 09/18 12:22
zzzxxxqqq29樓隨便想像都知道 10年後有多可怕 -.- 09/18 12:23
jeff8589830樓 09/18 12:26