[新聞] Sora到底懂不懂物理世界？一場腦力激盪正

工作

47245

jackliao1990

Sora到底懂不懂物理世界？一場腦力激盪正在AI圈大佬間展開

https://www.linkresearcher.com/information/933841f9-c37c-4e66-91fc-f152567bf3bb

Sora到底懂不懂物理世界？一场头脑风暴正在AI圈大佬间展开 | 新闻频道 | 领研网

机器之心报道编辑：张倩、杜伟Sora 到底是不是物理引擎甚至世界模型？图灵奖得主 Yann LeCun、Keras 之父 Francois Chollet 等人正在深入探讨。最近几天，OpenAI 发...

機器之心報道
編輯：張倩、杜偉

Sora 到底是不是實體引擎甚至是世界模型？圖靈獎得主Yann LeCun、Keras 之父
Francois Chollet 等人正在深入探討。

最近幾天，OpenAI 發布的影片生成模型Sora 成了全世界關注的焦點。

和以往只能產生幾秒鐘影片的模型不同，Sora 把生成影片的長度一下子拉長到60 秒。
而且，它不僅能了解使用者在Prompt 中提出的要求，還能get 到人、物在物理世界中的
存在方式。

以經典的「海盜船在咖啡杯中纏鬥」為例。為了讓生成效果看起來逼真，Sora 需要克服
以下幾個物理困難：

規模和比例的適應：將海盜船縮小到能夠在咖啡杯中纏鬥的尺寸，同時保持它們的細節和
結構，是一個挑戰。 AI 需要理解和調整這些物件在現實生活中的相對尺寸，使得場景在
視覺上顯得合理；

流體動力學：咖啡杯中的液體會對海盜船的移動產生影響。 AI 模型需要模擬液體動力學
的效果，包括波浪、濺水和船隻移動時液體的流動，這在計算上是複雜的；

光線和陰影的處理：為了讓場景看起來真實，AI 需要精確地模擬光線如何照射在這個小型
場景中，包括咖啡的反光、船隻的陰影，以及可能的透光效果；

動畫和運動的真實性：海盜船的運動需要符合真實世界的物理規律，即使它們被縮小到咖啡
杯中。這意味著AI 需要考慮到重力、浮力、碰撞以及船體結構在動態環境中的行為。

雖然生成效果還有些瑕疵，但我們能明顯感覺到，Sora 似乎是懂一些「物理」的。英偉
達高級研究科學家Jim Fan 甚至斷言，「Sora 是一個數據驅動的實體引擎」，「是可學
習的模擬器，或『世界模型』」。

部分研究者同意這樣的觀點，但也有不少人反對。

Yann LeCun：產生影片的過程與基於世界模型的因果預測完全不同

圖靈獎得主Yann LeCun 率先亮明觀點。在他看來，僅僅根據prompt 生成逼真影片並不
能代表一個模型理解了物理世界，生成影片的過程與基於世界模型的因果預測完全不同。

他接著講到，模型生成逼真影片的空間非常大，影片產生系統只需要產生一個合理的範例
就算成功。不過對於一個真實影片而言，其合理的後續延續空間卻非常小，產生這些延
續的代表性片段，特別是在特定行動條件下，任務難度更大。此外產生影片的後續內容
不僅成本高昂，實際上也毫無意義。

因此，Yann LeCun 認為，更理想的做法是產生影片後續內容的抽象表達，並消除與我們
可能所採取動作無關的場景中的細節。

當然，他藉此又PR 了一波JEPA（Joint Embedding Predictive Architecture，聯合嵌入
預測架構），認為上述做法正是它的核心思想。 JEPA 不是生成式的，而是在表示空間中
進行預測。與重建像素的生成式架構（如變分自編碼器）、掩碼自編碼器、去噪自編碼
器相比，聯合嵌入架構（如Meta 前幾天推出的AI 視訊模型V-JEPA）可以產生更優秀的視
覺輸入表達。

https://twitter.com/ylecun/status/1758740106955952191

François Chollet：只讓AI 看視頻學不成世界模型

Keras 之父François Chollet 則闡述了更細緻的觀點。他認為，像Sora 這樣的視訊生
成模型確實嵌入了「物理模型」，但問題是：這個物理模型是否準確？它能否泛化到新
的情況，也就是那些不只是訓練資料插值的情況？

Chollet 強調，這些問題至關重要，因為它們決定了生成影像的應用範圍—— 僅限於媒
體生產，還是可以用作現實世界的可靠模擬。

Chollet 透過海盜船在咖啡杯中纏鬥的例子，討論了模型能否準確反映水的行為等物理現
象，或者只是創造了一種幻想拼貼。在這裡，他指出模型目前更傾向於後者，即依賴資
料插值和潛空間拼貼來產生影像，而不是真實的物理模擬。有人將這種行為類比為人類
做夢，認為Sora 其實只是達到了人類做夢的水平，但是邏輯能力依然不行。

Chollet 指出，透過機器學習模型擬合大量資料點後形成的高維曲線（大曲線）在預測物
理世界方面是存在局限的。在特定條件下，大數據驅動的模型能夠有效捕捉並模擬現實
世界的某些複雜動態，例如預測天氣、模擬風洞實驗等。但這種方法在理解和泛化到新
情況時存在局限性。模型的預測能力依賴其訓練資料的範圍和質量，對於那些超出訓練
資料分佈的新情況，模型可能無法準確預測。

所以，Chollet 認為，不能簡單地透過擬合大量資料（如遊戲引擎渲染的影像或影片）來
期望得到一個能夠泛化到現實世界所有可能情況的模型。這是因為現實世界的複雜性和
多樣性遠遠超過任何模型能夠透過有限數據學習到的。

田淵棟：學習物理需要主動學習或策略強化學習

針對Jim Fan 的觀點，一些研究者提出了更激進的反駁，認為Sora 並不是學到了物理，
只是看起來像是學到了罷了，就像幾年前的煙霧模擬一樣。也有人覺得，Sora 不過是對
2D 像素的操縱。

https://twitter.com/IntuitMachine/status/1758845715709632873

當然，Jim Fan 對「Sora 沒有在學習物理，而只是操縱2D 像素」這一說法進行了一系列
反駁。他認為，這種觀點忽略了模型在處理複雜資料時所展現的深層能力。就像批評
GPT-4 不是學習編碼，只是隨機挑選字串一樣，這種批評沒有認識到Transformer 模型在
處理整數序列（代表文本的token ID）時所表現出的複雜理解和生成能力。

https://twitter.com/DrJimFan/status/1758549500585808071

對此，Google研究科學家Kevin P Murphy 表示，他不確定最大化像素的可能性是否足以
促使模型可靠地學到精確的物理，而不是看似合理的動態視覺紋理呢？是否需要MDL（
Minimum description length，最小描述長度）呢？

https://twitter.com/sirbayes/status/1759101992516112864

同時，知名AI 學者、Meta AI 研究科學家田淵棟也認為，關於Sora 是否有潛力學到精確
的物理學（當然現在還沒有），背後的關鍵問題是：為什麼像「預測下一個token」或“
重建」這樣簡單的思路會產生如此豐富的表示法？

他表示，損失函數如何被激發的並不重要，損失函數的設計動機（無論多麼哲學化或複雜
）並不直接決定模型能否學到更好的表示。事實上，複雜的損失函數可能與看起來很簡
單的損失函數實際上產生了類似的效果。

最後他稱，為了更好地理解事物，我們確實需要揭開Transformers 的黑盒子，檢查給定
反向傳播的訓練動態，以及如何學習隱藏的特徵結構，並探索如何進一步改進學習過程
。

https://twitter.com/tydsh/status/1759293967420805473

田淵棟也表示，如果想要學習精確的物理，他敢打賭需要主動學習或策略強化學習（無論
如何稱呼它）來探索物理的精細結構（例如物體之間的相互作用、硬接觸）。

https://twitter.com/tydsh/status/1759389064648888395

其他觀點：Sora 被認為是「數據驅動的實體引擎」太荒謬

除了眾多AI 圈大佬之外，也有一些專業性的觀點開始反駁Sora 懂物理引擎這個說法。

例如下面這位推特部落客，他認為OpenAI 是數據驅動的物理引擎這一觀點是荒謬愚蠢的
，就好像收集了行星運動的數據並將它們餵給一個預測行星位置的模型，然後就得出此
模型內部實現了廣義相對論的結論。

https://twitter.com/ChombaBupe/status/1759226186075390033

他稱，愛因斯坦花了很多年時間才推導出了重力理論的方程式。如果有人認為隨機梯度
下降（SGD）+ 反向傳播僅憑輸入輸出對就能理解一切，並在模型訓練中解決問題，那麼
這個人對於機器學習的理解是有問題的，對機器學習的工作方式了解也不夠。

愛因斯坦在理論推導中對現實做出了許多假設，例如光速恆定、時空是靈活的結構，然後
推導出了微分方程，其解揭示了黑洞、重力波等重大發現。可以說，愛因斯坦利用因果
推理將不同的概念連結了起來。

但是，SGD + 反向傳播並不是這樣，它們只是將資訊壓縮到模型權重中，並不會進行推理
，只是更新並轉向實現具有最低誤差的參數配置。

他認為，機器學習（ML）中的統計學習過程可能會顯然低誤差“盆地”，即無法探索不同
的概念，因為一旦陷入這些低誤差“盆地”或局部最小值就無法重新開始。

因此，SGD + 反向傳播發現了看似有效但卻很容易崩潰的、脆弱的解決方案捷徑。這就
是為什麼深度學習系統不可靠且實際訓練起來很難，你必須在現實中不斷更新和訓練它們
，這就很麻煩。

梯度下降的工作原理就像一隻蒼蠅尋找氣味源一樣，即蒼蠅跟隨空氣中的化學濃度向下移
動，從而引導它導向氣味源。但如果僅依賴這種方式，就很容易迷路或陷入困境。

在機器學習中，模型的可調式參數就像蒼蠅，訓練資料就像氣味源，目標函數測量的誤差
就像氣味。而調整模型權重的目的是朝著氣味源（這裡是低誤差，相當於更濃的氣味）
移動。

最後，他得出結論，如果認為機器學習模型僅僅透過訓練行星運動的影片就能在內部學到
廣義相對論，那就更荒謬了。這是對機器學習原理的嚴重誤解。

此外，有網友指出Sora 影片範例充滿了物理錯誤，例如一群小狗在雪中玩鬧的場景就很
糟糕，大塊雪的運動就完全違反了重力（是否真如此，有待判斷）。

https://twitter.com/MikeRiverso/status/1759271107373219888

Sora 到底懂不懂物理？將來會不會懂？「預測下一個token」是不是通往AGI 的一個方
向？我們期待各路研究者進行進一步驗證。

--

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.192.157.241 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1708668347.A.B3A.html

→ aria05201樓直接講結論當然不懂 02/23 14:24

→ aria05202樓把lecun的解釋看看就懂了 02/23 14:25

→ aria05203樓世界模型不可能以這種方式建構 02/23 14:26

ohlong4樓要是哪天真的暴力破解一堆遊戲3d engine的公司就 02/23 14:27

→ ohlong5樓丸子 02/23 14:27

→ chunfo6樓蒼井空是世界的 02/23 14:31

j1122334467樓如果真的可以train出一個懂物理模型的model是不是 02/23 14:50

→ j1122334468樓代表了他的loss function 就隱含了夠正確的物理模 02/23 14:50

→ j1122334469樓型？ 02/23 14:50

havochuman10樓首先你要先定義甚麼是懂物理模型的model 02/23 14:53