谷歌開源強化學習深度規劃網絡 PlaNet

雷鋒網 AI 科技評論按:近日,谷歌在官方博客上開源了強化學習深度規劃網絡 PlaNet,PlaNet 成功解決各種基於圖像的控制任務,最終性能與先進的無模型智能體相比,在數據處理效率方面平均提高了 5000%。雷鋒網 AI 科技評論對此進行編譯如下。

針對人工智能體如何隨着時間的推移改善自身決策機制的研究,當下用得最多的方法是強化學習。技術實現上,智能體會在選擇動作(如馬達命令)的過程中觀察來自知覺輸入的流信息(如相機圖像),有時還會接收到實現指定目標的獎勵。這種無模型的強化學習方法可以直接預測經過知覺觀察后的行為,使 DeepMind 的 DQN 能夠玩 Atari 遊戲以及使用其他智能體來操控機械人。然而,這種具有「黑箱」性質的方法往往需要數周的模擬交互,經過反覆的試驗與試錯才能完成學習,由此限制了在現實中的應用。

與此相對的是,基於模型的強化學習試圖讓智能體習得現實世界的日常運行規律。並非將觀察結果直接轉化為行動,這種方法允許智能體明確提前做出計劃,通過「想象」長期回報從而更謹慎地採取行動。這種基於模型的強化學習方法實際上已取得了實質性成功,最著名如 AlphaGo,能在熟知規則的遊戲虛擬板上進行移動操控。如果要將方法擴大至未知環境中進行運用(例如操控僅有像素作為輸入的機械人),智能體必須懂得自己從經驗中習得規則。只有實現了這種動態模型,我們原則上才有可能進行更高效與自然的多任務學習。創建出足夠準確用於進行規劃的模型,一直是強化學習的長期目標。

為了讓該難點早日取得突破,我們聯手 DeepMind 推出了深度規劃網絡(PlaNet)智能體,該智能體僅憑圖像輸入即可習得關於世界的模型,有效擴大模型的規劃範圍。PlaNet 成功解決各種基於圖像的控制任務,最終性能與先進的無模型智能體相比,在數據處理效率方面平均提高了 5000%。我們在社區開源了相關代碼:

開源網址:https://github.com/google-research/planet

PlaNet 的工作原理 

簡單來說,PlaNet 能在給定圖像輸入的情況下習得動態模型,並通過它高效吸收新的經驗。與過去基於圖像進行規劃的方法相比,我們依靠的是隱藏或潛在狀態的緊湊序列。之所以被稱作潛在動態模型,是因為它不再是從一個圖像到一個圖像來進行直接預測,而是先預測未來的潛在狀態,然後再從相應的潛在狀態中生成每一個步驟的圖像與獎勵。通過這種方式壓縮圖像,智能體將能自動習得更多抽象表示,比如物體的位置和速度,無需全程生成圖像也能對未來的狀態進行預測。

潛在動態學習模型:在潛在動態學習模型中,輸入圖像的信息將通過編碼器網絡(灰色梯形)集成到隱藏狀態(綠色)中。然後隱藏狀態再向前映射以預測未來的圖像(藍色梯形)與獎勵(藍色矩形)。

為了讓大家準確把握潛在動態學習模型,我們向大家推介:

  • 循環狀態空間模型(A Recurrent State Space Model):兼具確定性與隨機性因素的潛在動態學習模型,可以在牢記過程諸多信息的情況下,預測實現魯棒性規劃所需的各種可能未來。最終的實驗表明,這兩種因素對於高規劃性能的實現至關重要。

  • 潛在的超調目標(A Latent Overshooting Objective):潛在空間中的一步與多步預測之間被強行達到一致性,我們為潛在動態學習模型提煉出用於訓練多步預測的目標。這便產生了一個能夠快速、有效增進長期預測性能的目標,可與任意的潛在序列模型相兼容。

雖然預測未來圖像允許我們對模型進行「傳授」,然而圖像的編碼和解碼(上圖中的梯形)過程有賴於大量運算,這將降低我們的規劃效率。無論如何,在緊湊的潛在狀態空間中進行規劃依然是高效的,因為我們僅需通過預測未來的獎勵而非圖像來評估動作序列。舉個例子,即便場景無法可視化,智能體也能自行想象球的位置以及它與目標的距離將如何因為某些動作而被改變。這也意味着,每次智能體在選擇動作時,可與大批量將近 10,000 個想象動作序列進行對比。最後通過執行找到最佳序列的首個動作,我們再據此重新規劃下一步。

潛在空間中進行規劃:為了進行規劃,我們將過去的圖像(灰色梯形)編碼變為當前的隱藏狀態(綠色)。據此我們有效預測多個動作序列的未來獎勵。請注意上圖裡基於過去圖像的圖像解碼器(藍色梯形)是如何消失的。最後通過執行找到最佳序列的首個動作(紅色框)。

與之前關於世界模型(world models)的工作相比,PlaNet 無需任何政策指導即可運作——它純粹通過規劃來選擇行動,因此可以從實時的模型改進中受益。有關技術細節可以查看:

在線論文:https://planetrl.github.io/

PDF 文件:https://danijar.com/publications/2019-planet.pdf

PlaNet與無模型方法對比

我們利用連串控制任務上對 PlaNet 的表現進行考察。實驗中這些智能體僅會獲得圖像觀察與獎勵。這些任務涵蓋了各種不同類型的挑戰:

  • cartpole 上升任務,帶有固定攝像頭,因此 cart 可以放心移出視線。智能體必須吸收並記住多個幀的信息。

  • 手指旋轉任務,需要對兩個單獨的對象以及它們之間的交互關係進行預測。

  • 獵豹奔跑任務,難點包括難以準確預測的地面接觸,需要一個可以預測多種可能未來的模型。

  • 杯子任務,球被抓住時只會提供稀疏的獎勵信號,這就意味着需要一個能夠準確預測未來以規劃精確行動序列的模型。

  • 步行者任務,模擬機械人一開始會躺在地上,必須使它學會站起來並走路。

PlaNet 智能體會接受各種基於圖像的控制任務的訓練。這些任務涵蓋了不同的挑戰:部分可觀察性、與地面的接觸、用於接球的稀疏獎勵以及控制具有挑戰性的雙足機械人。

我們是第一個利用學習模型進行基於圖像任務的規劃,然後結果優於無模型方法的工作。下表將 PlaNet 與著名的 A3C 智能體和 D4PG 智能體進行了對比,兩者的結合正好代表了無模型強化學習方法的最新進展。基線的編號均取自 DeepMind Control Suite。最終結果顯示,PlaNet 在所有任務上的表現都明顯優於 A3C,並接近 D4PG 的最終性能,在與環境的交互頻次上平均減少了 5000%。

搞定所有任務的萬能智能體(One Agent)

此外,我們還訓練了用於解決所有六項任務的 PlaNet 萬能智能體。該智能體在不指定任務目標的情況下被隨機放置至不同環境中,需要靠自己從圖像觀察中來推斷出任務。在不更改超參數的情況下,多任務智能體達到與萬能智能體同樣的平均性能水平。萬能智能體雖然在 cartpole 上升任務中學習速度較緩慢,然而在需要自行進行更多探索、更具有挑戰性的步行者任務上表現出更高的學習能力與性能水平。

PlaNet 智能體在多個任務上進行訓練的預測視頻。經過訓練的智能體收集信息過程展示如上,下方是 open-loop 幻覺智能體。萬能智能體將前 5 幀視為上下文語境來推斷任務和狀態,並在給定一系列動作的情況下準確預測往後的 50 個步驟。

結論

我們的研究結果展示了用來建立自主強化學習智能體的動態學習模型的前景。我們建議往後的研究可以將重點放在如何使其通過更高難度的任務來習得更精確的動態學習模型,比如在 3D 環境和現實世界中的機械人任務。一個可能該研究進一步取得突破的因素是 TPU 處理能力。我們對基於模型的強化學習方法在開源后的可能性感到異常興奮,其中可能受惠的領域包括多任務學習、分層規劃和通過不確定性進行估計的主動探索任務等。

via https://ai.googleblog.com/2019/02/introducing-planet-deep-planning.html

雷鋒網 AI 科技評論


想在手機閱讀更多Google資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems