世界第一個 AI 生成遊戲模型!Google DeepMind 發表 Genie
https://tinyurl.com/yj83mjj3
Genie 是透過網路影片訓練出來的基礎世界模型,可以藉由文字、圖片、照片甚至是草稿
,生成無數種可以遊玩、角色動作可控的虛擬世界!更重要的是, Genie 學習到的動作
,未來有可能有助於實體機器人更好地理解並與身邊環境互動,並且完成從沒被訓練過的
任務。
Google DeepMind 又向世界投下了震撼彈,近日該團隊發表 Genie,這是一種靠網路影片
訓練出來的 AI 生成模型,可以單靠文字、圖片、影片甚至是手繪草圖,生成出真正可以
遊玩、可以互動的虛擬遊戲世界。
Genie (Generative Interactive Environments 的縮寫,即生成式可互動環境)模型是
透過公開的、長達 200,000 小時的線上網路影片進行訓練,目前僅是一個提供預覽的研
究。由 Genie 生成的遊戲目前看來是 2D 平台遊戲為主。
https://twitter.com/i/status/1762026090262872161
雖然 Genie 目前還未向公眾開放,不過未來使用者有可能可以透過和手機中的 Android
助理要求:「我要玩一款閃躲吸血鬼的遊戲」,手機即能為使用者自動生成出來。
更為重要的是,Genie 是在無人監督的情況下,使用未進行動作標記的影片來進行訓練的
,但它卻能學習網路影片中各種角色的運動、控制與動作,這代表 AI 可以對現實世界的
物理有更深入的理解,也代表 Genie 學習到的動作,未來有可能有助於實體機器人更好
地理解並與身邊環境互動。
Google DeepMind 開發者 Tim Rocktäschel 在 X 上表示,雖然 Genie 擅長從文字或圖
片來創造一個虛擬 2D 世界,但它可以做到的不僅僅是打造遊戲而已,還有包括向其他
AI 模型或超級助理(agents)傳授有關 3D 世界知識潛力。
「我們在沒有動作資訊的機器人控制模型(RT-1)上訓練 Genie,並證明我們也可以在那
裡學習並打造出一個可控制動作的模擬器。我們認為這是邁向 AGI 通用世界模型充滿希
望的一大步」。言下之意,未來即使在數據缺乏明確動作指令的情況下,這些實體機器人
也能在現實世界中完成從沒被訓練過的任務。
Google 不是第一次透過網路影片來訓練 AI,今年稍早,DeepMind Robotics 團隊就宣佈
了名為 AutoRT,可結合大型基礎模型(例如大型語言模型,LLM)或視覺語言模型(VLM
)與機器人控制模型(RT-1 或 RT-2)來達到不同的任務目的。
核稿編輯:Jocelyn
--