OpenAI發表新演算法，透過模仿學習新技能

OpenAI今日發表的機器人學習系統

讓機器人只要看過一次人類在虛擬實境（VR）中的示範後

就能成功複製人類行為，完成任務

模仿是人類與天俱來的能力，這也讓我們得以習得新技能，而現在，機器人也能採同樣的學習方式。OpenAI今日發表的機器人學習系統，讓機器人只要看過一次人類在虛擬實境（VR）中的示範後，就能成功複製人類行為，讓機器人的學習過程就和人類孩童時期模仿大人行為一樣，差別只在於，機器人可完全在虛擬環境中訓練。

在示範影片中，機器人的任務是將不同顏色的方塊按照固定順序堆疊在一起，在訓練一開始，研究人員只需要透過VR裝置在虛擬環境中示範任務一次。

而在實際執行任務時，系統會先透過視覺演算法辨識不同顏色的方塊位置。在此前，OpenAI已經先在虛擬環境中，將方塊和桌面的各種背景、顏色、紋理的排列組合供視覺演算法學習。相較於利用真實圖像訓練演算法，透過虛擬環境訓練演算法的成本更低且更有效率

接著，系統會再利用「單次模仿學習（one-time imitation learning）」，辨識人類示範動作的任務目標，並預測人類在類似情形會透過哪些動作來完成任務、模仿人類行為，再把動作指令傳給機器人。

由於過去已在虛擬環境中進行上千次的模擬演練，機器人不用看過一模一樣的場景，也能成功完成任務。例如，以堆疊方塊的例子來說，方塊位置不需要和示範時一模一樣，機器人也可按照示範中方塊堆疊的顏色和順序疊好方塊。

和以往機器人訓練差異最大的地方在於，OpenAI開發的演算法，讓訓練過程完全在虛擬環境中進行，並直接部署於機器人。研究人員指出，目標為希望打造出通用的家居型機器人，幫助整理桌面和環境等家庭事務。

而由於這套系統只要在虛擬環境中，即可訓練機器人執行複雜任務，將有助於訓練專門在極端環境中執行任務的機器人（如輻射外洩、極端水域等環境）。

「演算法」是一個計算的具體步驟，常用於計算、資料處理及自動推理。演算法能夠從計算的具體步驟，推論出問題解決的方法。演算法應包含用於計算的函式，以及定義清晰的指令，演算法中的指令，描述的是一個計算過程，執行時從一個初始狀態和初始輸入開始，經過一系列清晰定義的計算狀態，最終產生輸出並停止。