[討論] 為何機器人AI不透過強化式學習訓練？

工作

40127

剛剛看了YouTube 介紹特斯拉Optimus的影片
裡面提到特斯拉裡面有50位人員
專門用VR裝置去操控Optimus
去執行某修動作例如分類物品
然後就可以透過這些動作訓練模型

但是跟特斯拉成千上萬個車子數據比起來
這只能算是小巫見大巫
那我就好奇為什麼機器人不透過強化式學習的方式去訓練
如同訓練AI玩遊戲一樣
可以給個很明確的計分方式
然後讓AI自己去玩遊戲
只要規則夠明確 AI自己就可以訓練練到很強

同樣道理我讓一顆球放在一個發射平台
會自動彈出然後球上有晶片
只要機器人可以在越短的時間去把球撿回來
他就可以得到高分
如此一來他就可以去學習如何快速辨識球的位置
如何規劃路線如何最佳應用他的身體
然後快速把球撿起來放回發射平台

這樣作法的好處是可以做出成千上萬台機器人
讓他們自己去訓練一年365天24小不停歇
這樣就能產生大量數據快速精進機器人AI模型

同樣的模式還可以特用的很多事情上
所以為何現在的機器人公司不這樣做
要用真的人去訓練搜集數據呢？
還是其實有在做了？
-----
Sent from JPTT on my iPhone

--

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.192.92.120 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1729094085.A.D1F.html

→ drkkimo1樓你怎麼知道沒有人作這個? 10/17 00:03

原來已經有了嗎？

HaHaPoint2樓因為不把真人互動加進訓練的話你會訓練出殺人機器 10/17 00:04

如果任務能成功達成好像也不失為一個方法？只是任務怎麼定義就很重要

→ HaHaPoint3樓或是大法師那樣走路的機器人因為那樣比較有效率 10/17 00:04

→ DrTech4樓這在機器手臂取物都做到爛的事情… 10/17 00:22

→ peter33541525樓上網搜尋robotic deep reinforcement learning 應 10/17 00:25

→ peter33541526樓該會有一堆paper 10/17 00:25

→ DrTech7樓另外，RL 訓練實體動作極差，成本極高。通常都是先 10/17 00:26

→ DrTech8樓建立模擬環境，跟本不是你文中的直接physical去碰撞 10/17 00:26

→ DrTech9樓訓練。 10/17 00:26

→ DrTech10樓你這些說法根本就是外行，連訓練成本，效率，都不考 10/17 00:28

→ DrTech11樓慮。訓練一個動作，RL隨意碰撞，機器人先壞100台， 10/17 00:28

→ DrTech12樓外行人傻了才這樣想。 10/17 00:28

→ 本人13樓我的確是外行對AI好奇整天亂看而已問題是如果要叫 10/17 00:32

→ 本人14樓幾千萬個真人去搜集數據成本不會比較低啊除非可以 10/17 00:32

→ 本人15樓跟特斯拉車子一樣發展出可以讓人去操控機器人的商業 10/17 00:32

→ 本人16樓模式 10/17 00:32

→ 本人17樓用第一性原理去思考這個沒道理做不到我認為馬斯克 10/17 00:33

→ 本人18樓肯定也有想過至於為什麼我們沒看到有兩個原因一個 10/17 00:33

→ 本人19樓是其實有做但我們不知道第二個是其實有什麼大瓶頸 10/17 00:34

→ 本人20樓在這就是我好奇的地方 10/17 00:34

kevin021021樓這個問題我覺得蠻優的 10/17 00:50

chang1248w22樓它們是先在模擬環境練了幾萬年才放出來現實世界的 10/17 01:00

mrsix23樓畢竟是泛用型的人形機器人，日後可能會用於長照或 10/17 01:01

→ chang1248w24樓現在在做的是類似GPT一樣透過人類行為微調 10/17 01:01

→ mrsix25樓托兒，這種與人類互動的行為得由人類親自教導，而 10/17 01:01

→ mrsix26樓不是機器自己訓練自己。 10/17 01:01

→ mrsix27樓有樣東西叫人因工程 10/17 01:02

→ chang1248w28樓請工人一來不划算，二來把工人的行為轉換成機器人 10/17 01:02

→ chang1248w29樓能用的數據太貴了 10/17 01:02

→ mrsix30樓而且特斯拉機器人現在應該還不敢做跑步之類的快速 10/17 01:03

PTT鄉民日記

[討論] 為何機器人AI不透過強化式學習訓練？

工作