面對Sora,馬斯克“坐不住”了
https://tinyurl.com/yscuvpuy
Sora橫空出世,“技驚四座”後,在AI領域一向野心勃勃的TeslaCEO埃隆·馬斯克(Elon Mu
sk)“坐不住”了。
近日,馬斯克在社交媒體上多次發表觀點或回覆評論,力證Tesla在視頻生成上的實力。馬
斯克表示:“Tesla在大約一年前就能以精確的物理生成真實世界的視頻。只不過,由於訓
練數據來自汽車,生成的視頻並不有趣。這些視頻看起來像Tesla的普通視頻,實際上是通
過動態生成的。”
馬斯克同時透露,由於FSD(FullSelf-Drive,完全自動駕駛系統)訓練算力不足,因此沒
有使用其他視頻進行訓練,但這是可行的。年內晚些時候,當Tesla有空餘算力時,就會繼
續訓練。
日前,馬斯克發佈了Tesla一年前模擬真實場景的自動駕駛視頻,並稱“Tesla視頻的生成能
力超越了OpenAI,它可以預測到極其準確的物理特性,這對自動駕駛至關重要”。
有網友看完視頻後稱,Tesla應該製作視頻遊戲。馬斯克對此回覆道:“我早就想這麼做了
,只不過想要製作遊戲,還需在Tesla推出FSD之後才可以。”
在自動駕駛路線選擇上,馬斯克一直堅定押注“純視覺路線”,即不依靠雷達等傳感器,僅
通過車載智能鏡頭作為傳感器輸入,經過特定算法的計算和處理,對車輛周圍的環境信息做
出精確感知,從而實現自動駕駛功能的一種技術方案。
馬斯克認為,純視覺路線才是最佳解決方案,因為人類開車時只採集視覺數據,所以機器開
車也應該如此。2021年1月,馬斯克宣佈:“從今往後去除雷達,這根拐棍太糟糕了,我沒
開玩笑。顯然,開車只用鏡頭的效果很好。”
2023年11月,Tesla宣佈已開始向員工推出FSD V12版本。中信證券分析稱,Tesla依賴神經
網絡的FSD V12為自動駕駛提供了一套未經證明的新路徑,若得以走通,將對行業產生較大
顛覆;FSD V12有望打造自動駕駛領域的基礎底座,引領視覺(算法)的GPT時刻。
在最新一次財報電話會上,馬斯克曾表示,Tesla在人工智能效率方面遠遠領先於世界上任
何其他公司。“事實上,我認為很多汽車公司都應該主動尋求FSD授權。我們已經進行了一
些初步的對話,但我覺得他們似乎還不相信這是真的。不過,今年應該會變得很明顯。我想
強調的是,如果我是另一家汽車公司的CEO,我肯定會聯繫Tesla,要求授權FSD技術。這絕
對是明智之舉。”
自動駕駛迎來新機遇
除了顛覆影視業,Sora或在自動駕駛上大有可為。360集團創始人、董事長周鴻禕說,“這
次OpenAI利用它的大語言模型優勢,讓Sora實現了對現實世界的理解和對世界的模擬兩層能
力,這樣產生的視頻才是真實的,才能跳出2D的範圍模擬真實的物理世界。”
周鴻禕認為,有強勁的大模型做底子,基於對人類語言的理解,對人類知識和世界模型的瞭
解,再疊加很多其他的技術,就可以創造各個領域的超級工具。比如生物醫學、蛋白質和基
因研究,包括物理、化學、數學的學科研究上,大模型都會發揮作用。這次Sora對物理世界
的模擬,至少將會對機器人具身智能和自動駕駛帶來巨大的影響。
周鴻禕稱:“原來的自動駕駛技術過度強調感知層面,而沒有工作在認知層面。其實人在駕
駛汽車的時候,很多判斷是基於對這個世界的理解。比如對方的速度怎麼樣、能否發生碰撞
、碰撞嚴重性如何。如果沒有對世界的理解就很難做出一個真正的無人駕駛。所以這次Sora
只是小試牛刀,它展現的不僅僅是一個視頻製作的能力,它展現的是大模型對真實世界有了
理解和模擬之後,會帶來新的成果和突破。”
中信證券在研報中稱,在技術上Sora採用了Diffusion Transformer的路線,OpenAI表示Sor
a在訓練過程中表現出了與其他模型不同的湧現能力,通過湧現學習到了物品的時間與空間
相關性以及與周圍世界的互動能力等等。得益於這種基於規模的湧現能力,如果後續持續擴
大模型以及訓練集的規模,那麼將來以Sora為基礎的模型可能做到模擬整個物理和數字世界
,成為真正的“世界模型”。
中信證券認為,長期以來,計算機視覺領域的研究一直過於碎片化,直到目前實際用例中的
計算機視覺模型仍根據不同任務採取不同的小模型。而Sora的成功以及其背後展現出的湧現
能力可能為計算機視覺領域的研究提供了一個明確的方向,成為未來視頻與模擬領域(例如
自動駕駛)的統一範式。
--