華人學者再創佳績!包攬CoRL2021最佳論文獎項

作者 | 莓酊
編輯 | 青暮
2021年11月12日凌晨,遲遲未公布的CoRL 2021論文獎名單終於揭曉。

備受關注的論文大獎全部被華人學者包攬。來自麻省理工大學的Tao Chen, Jie Xu, Pulkit Agrawal(導師)拿下最佳論文獎;來自哥倫比亞大學的Huy Ha, 宋舒然(導師)拿下最佳系統論文獎。

本次獲提名獎的共有七篇論文,四篇最佳論文獎提名,三篇最佳系統論文提名。七篇佳作皆有華人學者參與。佔比42.3%。

CoRL於11月8日——11日在倫敦舉行。同時在網絡上也開設了虛擬會場以饗諸位:PheedLoop主題演講、指導性建議和論文演講;gather.town 用於海報會議和交流。即使不能到現場的同學,也不用擔心錯過關注論文的演講了。

官網鏈接:https://www.robot-learning.org/program/awards_2021

Youtube直播鏈接:https://www.youtube.com/watch?v=5KjpZS4_RBs


榮獲CoRL 2021最佳論文獎的是:

  1. 麻省理工學院《A System for General In-Hand Object Re-Orientation》

論文鏈接:https://openreview.net/forum?id=7uSBJDoP7tY

作者:Tao Chen, Jie Xu, Pulkit Agrawal

論文介紹:

由於高維驅動空間以及手指與物體之間接觸狀態的頻繁變化,手持物體重新定向一直是機械人技術中難攻克的問題。Tao Chen等人提出一個簡單的框架,框架的核心是無模型強化學習:可被稱為「師生關係」的訓練法、重力課程設置和物體穩定初始化。它可以解決複雜的問題,用機械手學習重新定向,讓2000多個不同物體的系統面朝上和朝下。該系統不需要物體或機械手模型、接觸動力學和任何特殊的感官觀察預處理。

過去的一些方法,如使用強大軌跡優化法分析模型,雖然解決了重新定向問題,但結果主要是在模擬簡單的幾何形狀,無法拓展到現實中推廣到新對象,結果差強人意。

Tao Chen他們的研究首先在模擬中對「老師」無模型強化學習(model-free Reinforcement Learning)進行有關物體和機械人信息的訓練,為了確保機械人可在現實中運作,模擬中缺失的信息如指間的位置,強化學習智能體接受的知識被轉化為模擬外可用的數據,像攝像機捕獲的深度圖像等。為了提高性能,機械人先在零重力空間里學習,再在正常的重力環境中適應調控器。看似違反直覺,但單個控制器可以重新定向大量它以前從未見過的物體。

作者介紹:

Chen Tao, 麻省理工學院EECS & CSAIL 博士,師從Pulkit Agrawal教授。本科畢業於上海交通大學機械工程及自動化專業,期間在普渡大學機械工程學院交換。讀研之前,Chen Tao曾是上海LX Robotics的研究工程師,從事目標檢測、圖像分割、機械人深度強化學習、SLAM等方面的研究。研究生畢業於卡內基梅隆大學機械人學院,師從Abhinav Gupta 教授。主要研究機械人學習、操作和導航的交叉領域 。

個人主頁:https://taochenshh.github.io/

Jie Xu,  麻省理工學院CSAIL博士,師從計算設計和製造組(CDFG)的Wojciech Matusik教授。本科畢業於清華大學計算機科學與技術系。

研究主要方向機械人、仿真、機器學習的交叉領域。感興趣的主題: 機械人控制、強化學習、基於可微分物理的仿真、機械人控制和設計協同優化、模擬現實。

個人主頁:https://people.csail.mit.edu/jiex/

Pulkit Agrawal,  麻省理工學院EECS助理教授。所在實驗室是計算機科學和人工智能實驗室(CSAIL)的一部分,隸屬於信息和決策系統實驗室(LIDS),並與美國國家科學基金會人工智能和基本交互研究所(IAIFI)合作。
首要研究興趣是構建能夠自動且持續地了解其環境的機器。希望這種學習的最終結果將類似於人類所謂的常識的發展。Pulkit Agrawal將這方向的工作稱為「計算感覺運動學習」,它包括計算機視覺、機械人技術、強化學習和其他基於學習的控制方法。
個人主頁:https://people.csail.mit.edu/pulkitag/

榮獲CoRL 2021最佳系統論文獎的是:
哥倫比亞大學的《FlingBot: The Unreasonable Effectiveness of Dynamic Manipulation for Cloth Unfolding》
論文鏈接:https://openreview.net/pdf?id=0QJeE5hkyFZ
作者:Huy Ha, Shuran Song
論文介紹:
高速動態動作(如,亂扔或用力拋擲)通過提高自身效率和有效擴展物理接觸範圍,在我們與可變形物體的日常互動中發揮着至關重要的作用。但之前的大多數工作都是使用單臂准靜態動作處理布料操作,這需要大量的交互來挑戰初始布料配置,並嚴格限制機械人可及範圍的最大布料尺寸。Huy Ha等人使用自監督學習框架FlingBot演示了布料展開動態投擲動作的有效性。
這個方法從從視覺觀察開始雙臂設置,學習如何展開一塊織物,從任意的初始配置使用拾取,拉伸,並投擲。最終系統在新布料上3個動作就能達到80%以上的覆蓋範圍,可以展開比系統覆蓋範圍更大的布料,雖然只在矩形布料上訓練過,但可以推廣到T恤上等。
研究者們還在真實世界的雙臂機械人平台上對FlingBot進行了微調。FlingBot的布料覆蓋面積比准靜態基線增加了4倍以上。FlingBot的簡單性和它優於准靜態基線的性能證明了動態動作對可變形物體操作是十分有效的。
作者介紹:
Huy Ha, 哥倫比亞大學計算機科學系博士。師從宋舒然教授,是哥倫比亞人大學工智能與機械人 (CAIR) 實驗室的成員。
個人主頁:https://www.cs.columbia.edu/~huy/
宋舒然,  目前是哥倫比亞大學計算機科學系的助理教授, 本科就讀於香港科技大學計算機工程專業,碩士和博士均畢業於普林斯頓大學計算機科學系。研究重點是計算機視覺和機械人技術的交叉領域,研究興趣是開發能使智能系統在與物理世界的交互中學習、並自主獲得執行複雜任務和協助人們的感知和操縱技能的算法。
個人主頁:https://www.cs.columbia.edu/~shurans/

獲得CoRL 2021最佳論文提名的有:
  1. 達姆施塔特工業大學和華為英國研發中心合作的《Robot Reinforcement Learning on the Constraint Manifold》
論文鏈接:https://openreview.net/pdf?id=zwo1-MdMl1P
作者:Puze Liu, Davide Tateo, Haitham Bou-Ammar and Jan Peters
論文介紹:
許多實際問題,像安全、機械約束和磨損等,在機械人技術中運用強化學習十分具有挑戰性。這些問題通常在機械人學習文獻中沒有被充分考慮到。在現實中應用強化學習的關鍵點在於安全探索,在整個學習過程中滿足物理和安全約束至關重要。要在這樣的安全環境中探索,利用諸如機械人模型和約束條件等已知信息,能更好地提供強有力的安全保障。Puze Liu等人提出了一種在模擬中能有效學習機械人任務的方法,能滿足學習過程中需要的約束條件。
研究提出了作用於約束流形的切線空間新方法(ATACOM),智能體探索約束流形的切線空間,如圖中所示。它可以將約束強化學習問題轉化為典型的無約束強化學習問題。這個方法可以讓我們利用任何無模型 RL算法,同時能讓約束保持在容差以下。
ATACOM 的優點可以概括如下:(i) 它可以處理等式和不等式約束。每個時間步的所有約束都保持在容差以下。(ii) 不需要初始可行的策略,智能體可以從零開始學習。(iii) 不需要手動安全備份策略將系統移回安全區域。(iv)它可以應用於任何使用確定性和隨機策略的無模型強化學習算法。(v) 探索可以集中在低維流形上,而不是探索原始動作空間中的等式約束。(vi) 它具有更好的學習性能,因為不等式約束僅限於較小的可行狀態-動作空間。
  1. 卡內基梅隆大學的《Learning Off-Policy with Online Planning》
論文鏈接:https://openreview.net/pdf?id=1GNV9SW95eJ
作者:Harshit Sikchi, Wenxuan Zhou, David Held
論文介紹:
低數據和風險敏感領域中的強化學習需要靈活高性能的部署策略,這些策略可以在部署過程中輕鬆整合約束。一類是半參數H步前瞻策略,它使用軌跡優化對具有終值函數的固定範圍的動態模型進行軌跡優化選擇動作。在這項工作中,Harshit Sikchi等人研究了一種新的 H步前瞻實例化,其中包含一個學習模型和一個由無模型離策略算法學習的終端值函數,名為 Learning Off-Policy with Online Planning (LOOP)。理論分析建議模型誤差和值函數誤差之間進行權衡,從經驗而言這種權衡有利於深度強化學習。這篇論文還確定了該框架中的「Actor Divergence」問題,提出Actor 正則化控制 (ARC),這是一種改進的軌跡優化程序。研究人員在一組用於離線和在線強化學習機械人任務上評估LOOP。LOOP 在部署期間展示了將安全約束與導航環境結合起來的靈活性。由此證明 LOOP 是一個理想的機械人應用框架,基於它在各種重要的強化設置中的強大性能。
  1. 斯坦福大學、谷歌機械人和加州大學伯克利分校合作的《XIRL: Cross-embodiment Inverse Reinforcement Learning》
論文鏈接:https://openreview.net/pdf?id=RO4DM85Z4P7
作者:Kevin Zakka, Andy Zeng, Pete Florence, Jonathan Tompson, Jeannette Bohg, Debidatta Dwibedi
論文介紹:
本文研究了視覺跨實體模仿設置,其中智能體從其他智能體(例如人類)的視頻中學習策略,演示相同的任務,但他們在實施中存有明顯差異——形狀、動作、末端效應器動力學等。本文證明了從對差異具有魯棒性的跨實體演示視頻中自動發現和學習基於視覺的獎勵函數。通過提出跨實體逆強化學習 (XIRL) 的自監督學習,利用時間周期一致性約束來學習深度視覺嵌入,這些嵌入可以從多個專家代理的離線演示視頻中捕獲任務進展,每個智能體執行相同的任務因具體化而不同。此前,從自監督嵌入產生獎勵通常需要與參考軌跡對齊,在實施差異下可是很難獲得的。如果嵌入了解任務進度,在學習的嵌入空間中簡單地取當前狀態和目標狀態之間的負距離作為強化學習訓練策略的獎勵是有作用的。研究證明學習獎勵函數不僅適用訓練期間看到的實施例,更可以推廣到全新的實施例。此外,當將真實世界的人類演示轉移到模擬機械人時,研究發現XIRL比當前的最佳方法更有效果。

獲得CoRL 2021最佳系統論文提名的有:
  1. 華盛頓大學和偉英達公司合作的《SORNet: Spatial Object-Centric Representations for Sequential Manipulation》
論文鏈接:https://openreview.net/pdf?id=mOLu2rODIJF
作者:Wentao Yuan, Chris Paxton, Karthik Desingh
論文介紹:
順序操作任務要求機械人感知環境狀態,並計劃一系列行動以達到預期的目標狀態,其中從原始傳感器輸入推斷對象實體之間空間關係的能力至關重要。之前的工作依賴於明確的狀態估測,對新任務和對象端到端地學習對抗。在這項工作中,Wentao Yuan等人提出了SORNet(空間對象中心表示網絡),它從以興趣對象的規範視圖為條件的RGB 圖像中提取以對象為中心的表示。結果表明,在空間關係分類、技能前提分類和相對方向回歸三種空間推理任務中,通過SORNet學習的對象嵌入方法可以將零樣本擴展到未見的對象實體,並顯著優於基線。此外,我們進行了真實世界的機械人實驗,證明了學習對象嵌入在順序操作任務規劃中的使用。
  1. 華盛頓大學和谷歌機械人合作的《Fast and Efficient Locomotion via Learned Gait Transitions》
論文鏈接:https://openreview.net/pdf?id=vm8Hr9YJHZ1
作者:Yuxiang Yang, Tingnan Zhang, Erwin Coumans, Jie Tan, and Byron Boots
論文介紹:
本文主要研究四足機械人節能控制器的研製問題。動物可以用不同的速度主動切換步態,以降低能量消耗。在本文中,Yuxiang Yang等人設計了一個層次學習框架,在這個框架中,獨特的運動步態和自然的步態轉換以能量最小化獎勵自動出現。研究人員使用進化策略(ES)訓練高級步態策略,指定每隻腳的步態模式,而低水平凸MPC控制器優化電機命令,使機械人可以用期望步態模式的速度行走。在一個四足機械人上測試了這個學習框架,演示了隨着機械人速度的增加,從步行到小跑再到飛小跑的自動步態轉換。結果表明,學習層次控制器消耗的能量遠少於基線控制器在大範圍的運動速度。
CoRL(Conference on Robot Learning/ 機械人學習大會),是一個以機械人和機器學習為主的學術會議。我們AI科技評論曾對CoRL會議做過詳細的介紹:機械人學習大會CoRL 2020 最佳論文出爐!華為諾亞、上海交大獲最佳系統論文獎
在CoRL官網,組委會這樣描述舉辦CoRL的緣由:
CoRL是一個新的以機械人學和機器學習為主題的年度國際會議。第一次會議已於2017年11月13日至15日在加利福尼亞州山景城舉行,旨在匯聚約250名從事機械人學和機器學習領域的最優秀的研究者參會。機械人技術,自主感知和控制領域正在經歷一場機器學習革命,現在正是時候提供一個將機器學習的基本進展與機械人應用和理論的實證研究相結合的場所。我們的目標是使CoRL成為機械人(機器)學習研究的首選大會。
大會的組織者包括來自UC Berkrley、Google、Microsoft、CMU、MIT、ETH、Deepmind等知名院校和知名企業的研究者和從業者,同時CoRL大會的舉辦還得到了機械人國際機構「三巨頭」之一的國際機械人研究基金會(IFRR)和機器學習領域最好的期刊之一JMLR(Journal of Machine Learning Research)的支持。
機械人學習大會(CoRL)自2017年推出以來,已迅速成為機械人技術與機器學習交叉領域的全球頂級學術盛會之一:「針對機械人學習研究的大會,涵蓋了機械人技術、機器學習和控制等廣泛主題,包括理論和應用各方面。」

雷鋒網



想在手機閱讀更多電腦與科技資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems