
雷鋒網 AI 科技評論按:機器學習圈子這幾天發生了一件有趣的事,一群知名學者在 ICML 2018 上抱着吵架(辯論)的心思坐到一起,結果卻沒吵起來。
從「奇怪的趨勢」開始
在 ICML 2018 開幕之前,卡耐基梅隆大學的助理教授 Zachary C. Lipton 與斯坦福大學博士 Jacob Steinhardt 共同發表了一篇名為《Troubling Trends in Machine Learning Scholarship》(機器學習學術研究中的奇怪趨勢)的文章,敘述了他們在近幾年的機器學習學術研究中看到的四項奇怪的趨勢:
無法在解釋和猜測之間做出明確的區分;
當實證實驗中得到了改進時,無法確認改進的真正來源,比如過於強調性能提升來源於神經網絡架構的非必須的改動,而實際上性能提升是來源於充分的超參數調試;
數學性:使用了很多數學概念和公式只為了混淆概念或者看起來高大上,而不是真的為了做出明確的表達,比如會混淆技術性和非技術性的概念;
語言詞彙的濫用,比如用一些時髦的、內涵口語化的詞彙,或者給已有的技術詞彙增加額外的含義。
除了對這些趨勢的解析和批評之外,兩位作者也對正確的論文寫作風格、如何正確地評審及發表論文給出了自己的建議。
除了這篇文章在推特被廣為轉發和討論,實際上 ICML 2018 也以這篇文章為引子,在最後一天的 workshop 中設置了一場辯論(Machine Learning: The Great Debates),邀請了許多知名機器領域的學者參與辯論。
整場辯論共分為四個話題:機器學習科研的嚴謹性、機器學習的公平性、機器學習的安全性以及深度學習方法的可能性與限制。16 位學者分為四組,每組針對一個話題進行辯論。辯論中也穿插了小演講,Zachary Lipton 講解了一些文章中的重要觀點,提醒各位學者對有害的做法保持警惕。
來自 Zachary Lipton,談論文中濫用的語言
暗示性的詞彙:思維向量,意識,先驗,好奇心,恐懼,語意。這些詞彷彿意味着模型有了類人的認知能力,但實際上差之甚遠。某個詞彙一旦得到了運用、被認為增加了一些技術性的含義,後來的研究者就不得不選擇讓它延續下去,又或者換用新的詞彙。
技術詞彙的濫用:反卷積、演繹、生成式模型、擬合、泛化。這些詞已經有了本身的技術含義,但是經常被用來表示相似的、有關聯但並不相同的含義,也就造成了持續的困惑。
「旅行箱」詞彙:平等性,可解釋性,意識。這些詞可以帶有許多不同的含義,一個詞就像一個塞的滿滿的旅行箱。
來自 Zachary Lipton,對論文作者們的建議:
動機、語言運用、經驗成果以及理論本身都要有足夠的嚴謹性
動機:要問「為什麼」,而不是滿足於「有多好」
語言:內容撰寫的目的是能夠被理解,包括審稿人、學生以及大眾(有可能的話)
經驗成果的嚴謹性:共享代碼,保證可重複性;做控制變量研究,分析誤差;具體描述算法表現不好的狀況
理論:要反覆問自己,理論是對的嗎、是有關係的嗎、是簡潔有力的嗎?
來自 Zachary Lipton,對審稿人們的建議:
引導着研究走向的誘因是來自於審稿人的,所以審稿人要負起責任來。
你的審稿意見體現了對受過訓練的科學素養和明確的溝通能力的看重了嗎?
你會更願意/更不願意接受一篇論文,當它:
- 包括了不好的結果
- 在算法不能正常工作的數據集/問題上做了嘗試
- 包括了一個複雜的(但同時也可能變得難以讀懂的)定理
辯論金句
整場辯論內容非常豐富,而且觀點的當面溝通也擦出了許多火花,在場聽眾都表示有耳目一新的感覺。雖然由於條件限制無法全文重現給大家,但雷鋒網 AI 科技評論摘錄了一些討論中出現的非常經典、令人深思的句子。
「深度學習」話題 —— 當前以及可預見的深度學習方法有着固有的限制,這也限制了用深度學習方法做出高級機器智能的能力,除非我們有其它的方法作為補充
Gary Marcus,紐約大學心理學教授、曾任 Uber 人工智能實驗室的負責人
如果你把輸入數據稍微改動了一點點,系統就不能好好工作了,那它是不是真的「學到了」任何東西呢?
如果我們把生物演化也算作學習的話,那任何適應性過程都可以算作是「學習」,然後「學習」這個詞的所指就會變得非常寬泛,我們現在的辯論也就沒有任何意義了。
如果沒有任何概念模型,只是做黑箱優化是不行的。
Thomas G.Dietterich,俄勒岡州立大學退休教授、AAAI 前主席
Gary Marcus 家的女兒大腦里通過演化的方式編碼了 200 萬年的數據,所以她才能弄清楚椅子是怎麼回事。
我們不要再把算法擬人化了。算法的名字應當體現出它們是做什麼的、如何做的,而不是對智慧、好奇心、夢境之類的人類概念的模糊的比擬。
所以為什麼貓有四條腿?(Gary Marcus 接著說:而且四條腿去掉一條以後它還是能走路。)
對於因果關係,我覺得人們高估了因果關係的重要程度,而且人類自己處理因果關係的能力也不怎麼樣。所以它才是一個有趣的研究課題。
80% 到 90% 的人類智慧可能都是和社交行為、和感情相關的,但這方面我們很難獲得數據。
我們這個 ICMLDebates 要辯論的內容,不應該是討論如何重新定義我們正在討論的這些詞到底是什麼意思。
「平等性」話題 —— 為了圍繞平等性問題展開有效的討論,機器學習社區不應該把平等性簡化為一個技術性問題。相反地,這個問題應當越來越多地、越來越明顯地引起大範圍的機構的改變,也要表明政治因素對於技術本身影響的立場
Rodrigo Ochigame,MIT 博士生,MIT 多媒體實驗室人工智能道德與管理小組
科技行業如今對平等性做的事情,就和 1980 年代保險行業對保險精算做的事情一樣,它成功地終結了這種社會運動。
平等的算法是不存在的。但平等的決定是存在的。聲稱要開發平等的算法很簡單,這也是企業們常用的政治策略;然後他們就得以迴避算法平等性問題帶來的深遠的社會影響。
「嚴謹性」話題
Zachary Lipton,CMU 助理教授,《Troubling Trends in Machine Learning Scholarship》一作
科學研究的意義在於有價值的貢獻,而不是掙大錢。
新手們可能不了解開放性的問題都有哪些,我們也不要給他們添亂。
我們應當優先關注的是新發現的知識,而不是新發現的網絡架構。
我們要盡量避免用「平等性」、「可解釋性」這樣的「旅行箱」式的詞彙 —— 當你打開它去看它的時候,誰知道會冒出來什麼。基本上每個人都對這些詞有不同的理解,在理解它們之前先要做許許多多的解釋和定義。
James Bradbury
數學式的嚴謹性和口語化的可解釋性是這根坐標的兩端,它們自己並不是問題本身。
我們需要更多的調查和實驗論文來驗證我們過去做過的選擇是否正確。
口語化的人類概念(比如「好奇心」)對於真正的溝通來說非常重要,因為它們可以和更廣泛的社會概念以及人類直覺產生聯繫。
「安全性」話題 —— 如今的機器學習系統如此脆弱,而這個問題又如此關鍵,以至於我們不應當允許在真實世界場景中廣泛地運用它們
Percy Liang,斯坦福大學助理教授,知名 NLP 領域學者
形式上正規的驗證是沒有用的,但是嘗試做這件事是有用的。
攻擊的數學模型往往過於簡單,無法代表真實世界可行的、有用的狀況。
從「AI in vitro」(試管階段的 AI)到「AI in vivo」(胚胎階段的 AI)是有切實的區別的。如果我們不嘗試部署 AI 系統,我們也就無法學習。
Aleksander Madry,MIT 副教授, CSAIL 小組成員
(對 Percy Liang 說)我喜歡你的觀點,這些觀點非常有創造力。我完全不同意它們,但我喜歡它們。
可能我們需要提醒年輕的研究者們注意,論文中的內容「不總是」正確的。
辯論的「觀后感」
對於這場辯論,大家也許期待學者們自發地分成正反兩方,展開激烈的唇槍舌劍。不過顯然參與辯論的各位學者都對領域內現存的問題有清醒的認識,以至於多數問題上參與辯論的四個人都能很快達成一致。參與圍觀辯論的 AAAI 主席、亞利桑那州立大學教授 Subbarao Kambhampati 發推無不遺憾地表示:
目前為止,ICML Debates 似乎很好地支持了那個「舒服地坐在方桌子的同一面的人很難吵起來」的假說
當人們或多或多少彼此認同的時候,確實很難展開扣人心弦的辯論(也可能是他們都太溫和,不同意的時候也不會表現出來)
圍觀了辯論的 Endgame 數據科學技術總監 Hyrum Anderson 也總結出了一件自己覺得值得深思的事情:攻擊者可以用意想不到的方法攻擊看起來根本不重要的系統,最終造成巨大的後果,「我們當時只不過是有一個廉價的推薦系統而已,現在 Trump 已經當上總統了」。
在論文中發表新的技術固然有意義,但圍繞新技術、新風氣,還有太多的東西值得我們仔細思考。雷鋒網 AI 科技評論報道。