AAAI 2019 四個傑出論文獎論文揭曉

雷鋒網 AI 科技評論按:人工智能頂級學術會議 AAAI 2019 (第 33 屆 AAAI)即將在美國夏威夷開幕,會議時間是 1 月 27 日到 2 月 1 日,其中正會內容從 1 月 29 日開始。近日,AAAI 組委會在官網公布了幾個論文獎獎項的獲獎情況。雷鋒網 AI 科技評論簡介如下。

AAAI 2019 傑出論文獎

How to Combine Tree-Search Methods in Reinforcement Learning

  • 如何把樹搜索方法結合進強化學習中

  • 論文地址:https://arxiv.org/abs/1809.01843

  • 論文摘要:有限時長的前瞻策略方法在強化學習中有着廣泛的應用,這類方法在實證研究中展現出了優秀的表現。通常,前瞻策略方法在應用的時候都會搭配一些具體的規劃方法,比如蒙特卡洛樹搜索(AlphaZero 中就是這樣做的)。對於看作是樹搜索的規劃問題,算法實現中的一種合理做法是只在葉子節點上備份值,同時在根節點上獲得的值只會用來更新策略。在這篇論文中,作者們質疑了這種方法的表現。具體來說,這種做法並不具備一般化的收縮性,也無法保證收斂。作者們提出的改進方法思路直接而且簡單:用最優的樹路徑的返回值備份根節點的子節點的值。這會帶來 γh 的收縮過程,其中 γ 是折扣係數,h 是樹的深度。為了表明這種方法的效果,作者們首次提出了一個名為「多步貪婪持續性」的想法。作者們編寫了兩個以上改進的算法實例,並在樹搜索階段和值估計階段都注入噪聲的狀況下提供了收斂速率結果。

AAAI 2019 傑出論文獎榮譽提名

Solving Imperfect-Information Games via Discounted Regret Minimization

  • 通過折扣後悔最小化解決非完全信息博弈

  • 論文地址:https://arxiv.org/abs/1809.04040

  • 論文摘要:反事實後悔最小化(CFR)是一類最為火熱的迭代算法,而且在實際應用中也是可以最快逼近解決大規模非完全信息博弈的方法。這篇論文中作者們提出了一種新的 CFR 變體,它的特點是,1,通過多種不同的方式,給較早的迭代中的後悔值打上折扣(在某些情況下,正值和負值的折扣比例會有所不同);2,迭代得到輸出策略的過程中,通過多種不同的方式給不同的迭代賦予不同的權重;3,使用了一個非標準的後悔最小化優化器;4,使用了「樂觀後悔匹配」。在多種設定下,這些改進都可以讓方法的表現得到大幅度提高。具體來說,作者們提出的某一種變體在所有測試了的博弈中都比此前的最佳表現算法 CFR+ 表現更好,包括在一些大規模的真實設定中。而此前,CFR+ 一直是一個令人敬畏的基準模型,沒有任何別的模型表現比它更好。最後作者們也展示了,與 CFR+ 不同,根據作者們提出的改進點設計的新 CFR 變體與現有的許多非完全信息博弈中的剪枝策略都是兼容的,而且其中也有一種和博弈樹中的採樣兼容。

AAAI 2019 傑出學生論文獎

Zero Shot Learning for Code Education: Rubric Sampling with Deep Learning Inference

  • 用於編程學習的零樣本學習:通過深度學習界面進行提示採樣

  • 論文地址:https://arxiv.org/abs/1809.01357

  • 論文摘要:在現代計算機科學教育中,大規模開放在線課程(MOOCs)在提供在線教育的同時也會記錄下數千小時的學習過程,其中包括了學生如何解決編程題目的過程。既然手握這麼多數據,這些平台也就引起了機器學習領域的研究人員們的興趣,他們開發了許多新的算法,嘗試以提供自動化反饋的方式幫助未來的學生們更好地學習。不過,提供了最初的幾十萬小時的訓練數據的學生們怎麼辦呢?在大多數教學場景下(比如教室),想要為課後作業設計監督學習系統都會遇到歷史數據不足的問題。在這篇論文中,作者們提出了一種人參與其中的「提示採樣」方法,專門用來處理早期的「無樣本學習」問題。對於在入門難度的編程作業中提供自動反饋的任務,相比於以往的需要數據餵養的方法,作者們提出的新方法為第一批學生們提供的反饋有顯著的質量提高,而且接近了人類級別的可信度。提示採樣需要老師付出的精力最小,可以提供和學生的回答的具體部分相關的反饋,而且可以使用指導者的語言指出學生的誤解之處。深度學習推理的使用,讓指示採樣在未來有更多基於不同的作業的學生數據可用時也能發揮出更好的表現。作者們從全世界最大的編程教育平台 Code.org 採集了一個新數據集並在上面展示了方法的表現。

AAAI 2019 傑出學生論文獎榮譽提名

Learning to Teach in Cooperative Multiagent Reinforcement Learning

  • 在多智能體合作強化學習中學習如何教學

  • 論文地址:https://arxiv.org/abs/1805.07830

  • 論文摘要:人類個體的創新行為可以通過溝通教會別的人,人類集體智慧的提升顯然從這種做法中受益匪淺。與人類社會群體類似,分佈式學習系統中的智能體也許也可以從溝通中獲益,可以分享知識、教授技能。此前已經有工作研究過如何通過教學的方式幫助智能體學習,但是這些方法做出的假設讓它們無法在一般的多智能體問題中進行教學,又或者先需要它們要解決的問題的領域知識。這種學習教學的問題本身就有很高的複雜度,而且還要測量教學的長期影響,這在標準的多智能體協調問題上又增加了許多難度。與現有研究不同,這篇論文首次為多智能體環境中的智慧智能體學習教學問題提出了一個通用的框架和算法。作者們提出的算法,「學習協調與學習強化」(LeCTR),針對的是合作多智能體強化學習中的點對點(peer2peer)教學。方法中的每個智能體都要學習如何指導、指導什麼內容,然後使用接收到的建議改進自己的學習。重要的是,這些角色並不是固定的;智能體們會學習在不同的時間決定別的智能體是學生還是老師的角色,對應地提供指導或者接受指導,以便提高整個團體範圍內的表現和學習能力。與當前最好的方法之間的比較表明,作者們提出的教學智能體不僅顯着地學習更快,而且也可以在現有方法無法解決的問題中學會協調。

AAAI 2019 經典論文獎

Content-Boosted Collaborative Filtering for Improved Recommendations

  • 內容加速的合作式篩選帶來更好的推薦

  • 這篇論文來自第 18 屆 AAAI,即 AAAI 2002

  • 獲獎理由:這篇論文展示的方法是推薦系統中基於內容的和合作式過濾方法的補充

  • 論文一作 Prem Melville 將在大會中發表演講

  • 論文地址:https://www.cs.utexas.edu/~ml/papers/cbcf-aaai-02.pdf

完整 AAAI 2019 會議秩序冊參見 https://aaai.org/Conferences/AAAI-19/wp-content/uploads/2019/01/AAAI19.Program.pdf

更多會議內容報道請繼續關注雷鋒網 AI 科技評論。


想在手機閱讀更多教學錦囊資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems