[討論] 為何機器人AI不透過強化式學習訓練?

工作

40127


剛剛看了YouTube 介紹特斯拉Optimus的影片
裡面提到特斯拉裡面有50位人員
專門用VR裝置去操控Optimus
去執行某修動作 例如分類物品
然後就可以透過這些動作訓練模型

但是跟特斯拉成千上萬個車子數據比起來
這只能算是小巫見大巫
那我就好奇 為什麼機器人不透過強化式學習的方式去訓練
如同訓練AI玩遊戲一樣
可以給個很明確的計分方式
然後讓AI自己去玩遊戲
只要規則夠明確 AI自己就可以訓練練到很強

同樣道理 我讓一顆球放在一個發射平台
會自動彈出 然後球上有晶片
只要機器人可以在越短的時間去把球撿回來
他就可以得到高分
如此一來他就可以去學習如何快速辨識球的位置
如何規劃路線 如何最佳應用他的身體
然後快速把球撿起來 放回發射平台

這樣作法的好處是可以做出成千上萬台機器人
讓他們自己去訓練 一年365天24小不停歇
這樣就能產生大量數據 快速精進機器人AI模型

同樣的模式還可以特用的很多事情上
所以為何現在的機器人公司不這樣做
要用真的人去訓練搜集數據呢?
還是其實有在做了?
-----
Sent from JPTT on my iPhone

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.192.92.120 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1729094085.A.D1F.html
drkkimo1樓你怎麼知道沒有人作這個? 10/17 00:03
原來已經有了嗎?
HaHaPoint2樓因為不把真人互動加進訓練的話 你會訓練出殺人機器 10/17 00:04
如果任務能成功達成 好像也不失為一個方法? 只是任務怎麼定義就很重要
HaHaPoint3樓或是大法師那樣走路的機器人 因為那樣比較有效率 10/17 00:04
DrTech4樓這在機器手臂取物都做到爛的事情… 10/17 00:22
peter33541525樓上網搜尋robotic deep reinforcement learning 應 10/17 00:25
peter33541526樓該會有一堆paper 10/17 00:25
DrTech7樓另外,RL 訓練實體動作極差,成本極高。通常都是先 10/17 00:26
DrTech8樓建立模擬環境,跟本不是你文中的直接physical去碰撞 10/17 00:26
DrTech9樓訓練。 10/17 00:26
DrTech10樓你這些說法根本就是外行,連訓練成本,效率,都不考 10/17 00:28
DrTech11樓慮。訓練一個動作,RL隨意碰撞,機器人先壞100台, 10/17 00:28
DrTech12樓外行人傻了才這樣想。 10/17 00:28
本人13樓我的確是外行 對AI好奇整天亂看而已 問題是如果要叫 10/17 00:32
本人14樓幾千萬個真人去搜集數據 成本不會比較低啊 除非可以 10/17 00:32
本人15樓跟特斯拉車子一樣發展出可以讓人去操控機器人的商業 10/17 00:32
本人16樓模式 10/17 00:32
本人17樓用第一性原理去思考 這個沒道理做不到 我認為馬斯克 10/17 00:33
本人18樓肯定也有想過 至於為什麼我們沒看到有兩個原因 一個 10/17 00:33
本人19樓是其實有做 但我們不知道 第二個是其實有什麼大瓶頸 10/17 00:34
本人20樓在 這就是我好奇的地方 10/17 00:34
kevin021021樓這個問題我覺得蠻優的 10/17 00:50
chang1248w22樓它們是先在模擬環境練了幾萬年才放出來現實世界的 10/17 01:00
mrsix23樓畢竟是泛用型的人形機器人,日後可能會用於長照或 10/17 01:01
chang1248w24樓現在在做的是類似GPT一樣透過人類行為微調 10/17 01:01
mrsix25樓托兒,這種與人類互動的行為得由人類親自教導,而 10/17 01:01
mrsix26樓不是機器自己訓練自己。 10/17 01:01
mrsix27樓有樣東西叫人因工程 10/17 01:02
chang1248w28樓請工人一來不划算,二來把工人的行為轉換成機器人 10/17 01:02
chang1248w29樓能用的數據太貴了 10/17 01:02
mrsix30樓而且特斯拉機器人現在應該還不敢做跑步之類的快速 10/17 01:03