標題:
來源:
All-in Pod e206集
網址:
https://youtu.be/K2xfW3hgxb4?si=vso9TsDW09rVlaDK&t=2947
內文:
故事是這樣的
All-in Pod裡頭提到,這個故事是這樣的。
在Blackwell 被推遲的過去六個月裡,所有
等待Blackwell 並認為100K Hoppers這種規
模的GPU不可能搞成同一超級運算叢集的人
突然蜂擁而出,購買了許多Hoppers 來嘗試
自己實現這一目標。
因為他們發現Elon 和xAI已經解決了連接100K
的 H100 GPU 的問題進入超級運算叢集。
這基本上幫助 NVIDIA 解決了 Blackwell 延
遲可能造成的任何潛在損害。
這是為什麼Jensen在跟Brad Gersner的訪談
這麼推崇Elon跟xAI的速度
------------
以下是All-in Pod該片段的Claude翻譯與整理
講了很多xAI, Nvidia技術,以及AI的投資回報
率問題,很值得
「你想談談與Gavin的AI話題嗎?我認為接下來
一個很好的話題就是談談由Pod的朋友Elon
正在建造的超級電腦。根據報導,他現在擁有世
界上最大的超級電腦,而且他打算將其規
模擴大十倍。」
「是的,我認為這對AI來說是一個非常重要的時
刻,對整個AI在公共和私人市場的交易也
是如此。我相信每個收看你節目的人都非常了解
規模定律,而我們在訓練方面還沒有真正
測試過規模定律。如果你將用於訓練模型的計算
能力增加十倍,就會顯著提高模型的智能
和能力,而且通常會伴隨著一些新興特性的出現
,這些特性會與更高的智商一起出現。」
「沒有人認為可能製造超過25,000、也許30,000
或32,000個NVIDIA Hopper並使其保持連
貫性。這裡說的連貫性指的是在訓練集群中,簡
單來說,每個GPU都知道其他每個GPU在想
什麼。所以在那30,000個集群中的每個GPU都知
道其他29,999個在想什麼,而要實現這一
點需要大量的網路連接。」
「這是通過Infiniband實現的,對吧?」
「是的,通過Infiniband,而且我認為更重要的
是NVLink。雖然很多以太網也在使用,你
知道,永遠不要低估互聯網,永遠不要低估以太
網。就像如果你讀過Llama 3.1的技術論
文,你知道很多人對細鏈路以太網感到興奮。」
「但是讓我們為觀眾放慢節奏,Gavin,也許可以
解釋一下為什麼在GPU之間傳輸信息如此
重要。我們現在談論的有點深入技術了,每個人
都聽說過以太網,但是其他一些協議和移
動大量數據的方式,這是H20s、H100s特別擅長
的,它們每秒可以在處理器之間移動幾個
太字節的數據。」
「好的,讓我們這樣想像:在GPU的情況下,一
台伺服器看起來可能像是三個披薩盒疊在
一起,它有8個GPU。這8個GPU今天是用一種叫
做NVLink的技術連接在一起。你可以認為晶
片上的通信速度是最快的,晶片到記憶體次之
,然後是伺服器內部晶片到晶片的速度再次
之。」
「所以你把這些伺服器單元,其中GPU是通過一
種叫做NVSwitch的技術在伺服器上連接的
,然後用Infiniband或以太網將它們串聯成一
個巨大的集群。每個GPU必須與其他每個GPU
連接並知道它們在想什麼,它們需要保持連貫
性,需要某種程度上共享記憶體才能讓計算
工作,GPU需要一起工作來實現AI。」
「沒有人認為用今天的技術可能連接超過
30,000個這樣的設備。根據公開報導,Elon
他經常這樣做,深入思考這個問題,從第一
原理出發思考應該花多長時間,應該如何完
成,他想出了一種非常不同的數據中心設計
方式,他成功使超過100,000個GPU保持連貫
性。沒有人認為這是可能的。」
「如果我是最後一分鐘加入的,我會說去年
夏天有許多文章發表,說沒有人相信他能做
到,這都是炒作,都是荒謬的。記者們之所
以敢寫這些愚蠢的報導,是因為Meta和Google
以及其他公司的工程師們都說我們做不到,
他不可能做到。」
「他做到了,而且我認為世界真正相信這一點
是在Jensen做了那個播客,我想是跟
Gersner一起做的對吧?是的,是跟Gersner
,他說Elon做的事情是超人般的,沒有其他
人能做到。」
「事實上,你可以說Elon做到這一點在很多
方面拯救了NVIDIA度過了一個艱難的六個月
期,因為當Blackwell延遲時,每個等待
Blackwell並認為不可能讓100,000個Hopper
保持連貫的人都衝出去買了很多Hopper來嘗
試自己做到這一點。」
「現在我們要看看是否有其他人能做到,這真
的非常非常困難,沒有人認為這是可能的。
因此,Grock 3現在正在這個巨大的Colossus
超級電腦上訓練,這是世界上最大的,擁有
100,000個GPU,設在舊的Electrolux工廠,
他們在那裡投入了大量能源,大量天然氣。」
「是的,一個破舊的Electrolux工廠,周圍
有很多Mega Pack,而孟菲斯市完全支持這個
項目。」
「這對他們來說顯然很明智,但你從GP4以來
還沒有對訓練的規模定律進行過真正的測試
,而這將是第一次測試。如果訓練的規模定
律成立,Grock 3應該會在技術水平上有重大
突破。」
「從貝葉斯的角度來看,這是一個極其重要的
數據點。但如果那張卡不起作用 - 雖然我
認為它會起作用,我認為Grock 3會非常好 -
我應該說明我是消費者。」
「是的,你有參與,我的公司是X的投資者。」
「他們籌集了大量資金,很多來自中東,他
們據說要建造Colossus 2,目標是100萬個GPU
,是目前規模的10倍。Freeberg,關於我們
是否在這裡遇到瓶頸,已經有一些爭論,也許
你們其中一位可以向觀眾解釋這個瓶頸?」
「好的,我讓Gavin來談談這個瓶頸。我認為
另一個問題是,你知道,如果我們看到相對
於投資在訓練計算資源上的效能增長下降,
我們是否會開始看到系統架構運行方式的演變
?這意味著我們是否開始建立模型的模型,
這開始解決一個更高層次的架構,從而釋放新
的性能能力?」
「我要說的是,我們已經在建立模型的模型了
。我所知道的幾乎每個應用創業公司都在串
聯模型。你從一個便宜的模型開始,用更貴的
模型檢查便宜模型的工作,你知道,正在做
很多非常聰明的事情。每個AI應用公司都有
所謂的路由器,這樣如果另一個模型更適合手
頭的任務,他們就可以替換底層模型。」
「至於瓶頸是什麼,一直有一個大爭論說我們
在這些規模定律上遇到了瓶頸,規模定律正
在崩潰。我認為這非常愚蠢,因為沒有人建造
過超過32,000個H100的集群,沒有人知道。
這是一個荒謬的爭論,雖然雙方都有非常聰明
的人。」
「但是沒有新的數據,Grock 3是第一個新的
數據點,用來支持規模定律是否正在崩潰或
保持,因為沒有人認為你可以讓100,000個
Hopper保持連貫。」
「我認為根據公開報導,他們要擴展到
200,000個Hopper,然後下一個檢查點是100
萬。據報導他們將是Blackwell的第一批客戶,
但Grock 3是一個重要的指標,將解決我們是否遇
到瓶頸的問題。」
「David,你提出的另一個問題很有趣。順便
說一句,我們應該注意到現在有一個新的擴
展軸,有些人稱之為測試時間計算,有些人
稱之為推理擴展。基本上,這是這樣運作的:
你可以把這些模型想像成人類,你越是和這
些模型交談,就像你跟你17歲要去考SAT的孩
子說話一樣,它對你的表現就會越好。」
「比如說,David,如果我問你二加二等於多少
,四這個答案會立即在你腦海中閃現。但
如果我要你統一一個能夠解釋量子力學和相對
論物理學的大統一理論,你會思考更長時間
。」
「沒人知道答案。我們一直在給這些模型相同
的思考時間,不管問題有多複雜。我們現在
了解到,如果你讓它們針對更複雜的問題思考
更長時間 - 測試時間計算 - 你可以大幅提
高它們的智商。所以我們才剛開始發現這個新
的規模定律。」
「但我認為你提出的關於投資回報率的問題很
好,我很樂意討論。而且還有一個上下文視
窗的轉變正在進行,這也可以說創造了一個新
的潛在應用集擴展軸。所以模型網絡、思考
時間、上下文視窗,這些都是這些工具最終
能實現更好性能的多個維度。」
「是的,即使訓練的規模定律失效,我們還有
十年的創新在前面。」
「確實如此,根據我與相關人員的交談,雖然
我當然不像你那麼深入和熟悉,但有很多努
力和研究正在進行,重新設計各個部分的堆疊,
以減少能源消耗,減少驅動模型性能的每
種資源。基本上是重新設計架構,之前一段時
間都是非常暴力的方式,就是一直推進推進
,但現在當我們回過頭來開始重新設計和用更
有設計感的方式構建things時,我們獲得了
更好的性能,這方面還有很多工作要做。」
「這就是資本主義和運作良好的資本市場的偉
大之處之一,你有人專門研究上下文視窗。
對於不知道的人來說,令牌基本上可以理解為
一個詞,是一塊信息。你可以在與大型語言
模型的對話中輸入的令牌數量,有些模型有
很大的上下文視窗,有些較小。」
「但你基本上可以把整本書放入上下文視窗中
,然後開始針對模型提問,而這些的速度也
至關重要,因為如果你把書放進去,但要等10
分鐘才能得到答案,那就不實用了。」
「Gavin,你是OpenAI的投資者嗎?」
「哦,絕對不是。」
「你能否理論化說明Colossus的建設對OpenAI
目前的優勢有什麼影響?我們要多久才能趕
上xAI,你知道有多少會被顛覆,以及會多快
發生?」
「好吧,如果規模定律成立,據我所知,
Microsoft在恐慌之後最大的集群仍然比xAI
的集群小。如果你不相信這是可能的,你甚至
都不會去做。如果規模定律成立,Grock 3應該
會在1月或2月取得領先地位。」
「我確實認為很多人才已經離開了OpenAI。我
認為Mira Murati在融資期間辭職是一個非
常令人震驚的聲明,這是她表達對那裡發生的
事情不認同的唯一方式,而且可能還能拿到
她的錢。」
「所以我認為,如果規模定律成立,有很多理由
對Grock 3保持樂觀。但我認為,順便說
一下,關於能源問題,在2023年和2024年,人們
只是瘋狂地搶購GPU並把它們插上電源,
現在我們正在努力使它們更有效率,更深思熟慮
,重新設計它們。」
「現在H20的耗電量減少了50%,計算能力增加了
50%或翻倍,這取決於任務。它們的計算
能力稍微多一點,記憶體多很多,這真的很重要
。所以每單位有效計算的耗電效率要高得
多。」
「你認為是兩到三倍嗎?」
「H20可能沒有達到2倍,但是有不錯的增長,
H100是一個很好的晶片。」
「是的,是的,Blackwell就在眼前,那是一個
全新的架構,有全新的網路技術。」
「如果我們要推測的話,消費者的體驗會如何改
變?在使用面向前端的語言模型時,然後
開發人員在後端會看到什麼?你知道,如果這在
接下來的兩年內實現,他們能夠建造什麼?」
「現在,你口袋裡有一個智商大約115或110的朋
友,但他擁有世界上所有的知識,這就是
讓它變得驚人的原因。我認為這就像你口袋裡有
一個朋友,但他們有時會編造東西,再說
一次,他們很像人類,很多人類當他們不知道答
案時就會胡說。這些AI也會這樣做。」
「所以你口袋裡會有一個智商可能達到130的朋
友,他知道一切,擁有更新的世界知識,
更加紮根於事實的準確性。有趣的是,對於任
何涉及即時信息的問題,主要是體育和金融
,你知道,如果有股票下跌25%,問每個AI為
什麼股票下跌25%,通常Grock是知道答案的
那個。」
「是的,沒錯,Grock因為Twitter數據集,確實
知道世界上當下正在發生什麼。」
「好的,當我們在AI議題上總結時,關於David
提到的投資回報率問題呢?」
「是的,我發現這些爭論也很有趣。你知道,有
文章談論數千億美元的投資回報率問題,
這對我來說很奇怪,因為最大的GPU消費者都是
上市公司,他們每季度都會報告財務結果
,你可以計算一個叫做投資資本回報率的指標。」
「自從他們加大對GPU的資本支出以來,ROIC和
ROI就呈垂直上升趨勢。實際上,直到最近
一個季度才開始趨於平穩。到目前為止,AI的投
資回報率一直非常正面,這是事實。這是
一個很好的問題,特別是如果在兩三年後訓練一
個模型要花費1000億美元,這我認為是一
個現實的估計。」
「然而,這個說法的反論不是說可能有一點炒作?
你知道,也許人們正在試圖更精確地確
定和關聯投資回報率,我想這就是挑戰所在。你知
道,Meta在其整個企業中使用AI,你可
能會看到,比如Google,你可能會直接看到它讓廣
告更有效。」
「百分之百是的。」
「但對於其他人來說,比如說,它真的在發生嗎,
還是它只是一個玩具?我想這是我聽到
的批評。我不是說這是我的立場,但這是我聽到的
批評,就像人們真的從co-pilot獲得收益嗎?或者
這可能只是產品市場契合度的探索過程,因為蘋果
的AI筆記本電腦和一些通用LLM,人們可能覺得不值
這個錢,或者微軟的co-pilot可能不值這個錢。」
「是的,我個人使用co-pilot的體驗並不好,但我
要說,我相信你們兩個都遇到過,有很
多公司只是在基礎模型上做了一層薄薄的包裝,他
們瞬間就從零增長到4000萬,而且是有盈利的。」
「對他們的客戶來說,他們正在替代勞動力預算。
我相信你們也注意到了,但現在的創業
公司在相同規模下,僱用的人比三年前要少,你知
道,這很有趣,人們非常...我會說少了50%,這就
是AI的投資回報率。」
「就像你知道的,我參加了第一屆AWS re:Invent大
會,當時沒有大公司使用雲計算,全
都是創業公司。創業公司總是最先採用技術,所以
除了你在Google和Meta看到的AI投資回
報率,他們在整個業務中使用這個,你從創業公司看
到真實的AI投資回報率,就像他們在
其他人之前從雲計算中看到真實的投資回報率一樣。」
「這很瘋狂,但我不認為這些公司處於典型的囚徒
困境。他們都在不同程度上相信,誰先
達到人工超級智能,誰就會創造數十萬億或數百萬
億美元的價值,我認為他們可能是對的
。如果他們到達那裡,他們認為如果他們輸掉這場
競賽,他們的公司就面臨致命風險。所
以只要有一個人在投資,我認為他們都會投資,即
使投資回報率減緩,這是一個典型的囚
徒困境。」
--