OpenAI發表新演算法,透過模仿學習新技能

OpenAI今日發表的機器人學習系統

讓機器人只要看過一次人類在虛擬實境(VR)中的示範後

就能成功複製人類行為,完成任務

成功複製人類行為

模仿是人類與天俱來的能力,這也讓我們得以習得新技能,而現在,機器人也能採同樣的學習方式。OpenAI今日發表的機器人學習系統,讓機器人只要看過一次人類在虛擬實境(VR)中的示範後,就能成功複製人類行為,讓機器人的學習過程就和人類孩童時期模仿大人行為一樣,差別只在於,機器人可完全在虛擬環境中訓練。

先用視覺演算法辨識物件,再用模仿演算法預測執行動作

在示範影片中,機器人的任務是將不同顏色的方塊按照固定順序堆疊在一起,在訓練一開始,研究人員只需要透過VR裝置在虛擬環境中示範任務一次。

研究人員只需在VR環境中示範一次任務,機器人便可學會

而在實際執行任務時,系統會先透過視覺演算法辨識不同顏色的方塊位置。在此前,OpenAI已經先在虛擬環境中,將方塊和桌面的各種背景、顏色、紋理的排列組合供視覺演算法學習。相較於利用真實圖像訓練演算法,透過虛擬環境訓練演算法的成本更低且更有效率

視覺演算法會先在虛擬環境中模擬各種物體排列、顏色、光線等可能

接著,系統會再利用「單次模仿學習(one-time imitation learning)」,辨識人類示範動作的任務目標,並預測人類在類似情形會透過哪些動作來完成任務、模仿人類行為,再把動作指令傳給機器人。

由於過去已在虛擬環境中進行上千次的模擬演練,機器人不用看過一模一樣的場景,也能成功完成任務。例如,以堆疊方塊的例子來說,方塊位置不需要和示範時一模一樣,機器人也可按照示範中方塊堆疊的顏色和順序疊好方塊。

目標為打造家居型機器人,可用於訓練極端環境任務機器人

和以往機器人訓練差異最大的地方在於,OpenAI開發的演算法,讓訓練過程完全在虛擬環境中進行,並直接部署於機器人。研究人員指出,目標為希望打造出通用的家居型機器人,幫助整理桌面和環境等家庭事務。

而由於這套系統只要在虛擬環境中,即可訓練機器人執行複雜任務,將有助於訓練專門在極端環境中執行任務的機器人(如輻射外洩、極端水域等環境)。

► 演算法 Algorithm

「演算法」是一個計算的具體步驟,常用於計算、資料處理及自動推理。演算法能夠從計算的具體步驟,推論出問題解決的方法。演算法應包含用於計算的函式,以及定義清晰的指令,演算法中的指令,描述的是一個計算過程,執行時從一個初始狀態和初始輸入開始,經過一系列清晰定義的計算狀態,最終產生輸出並停止。