「深度學習才不是鍊金術」,Yann LeCun為這個和NIPS獲獎論文作者掐起來了

..

雷鋒網 AI 科技評論按:被大家譽為深度學習三駕馬車之一的 Yann LeCun 喜歡跟人爭執的名聲可算越傳越廣了。這幾天,LeCun 和 NIPS 2017「時間檢驗獎」論文作者之一的 Ali Rahimi 就在 Facebook 上掐了起來。

在 12 月 5 日的 NIPS 2017 開幕儀式上,NIPS 2007 收錄的「Random Features for Large-Scale Kernel Machines」獲得了「時間檢驗獎」Test of Time Award,這是 NIPS 2017 評審委員會認為影響最深遠的十年前的論文。論文作者之一的 Ali Rahimi 也發表了精彩的論文解讀和獲獎演講 從「鍊金術」到「電力」的機器學習。在演講中,Ali Rahimi 回顧了其十年前頂着「學術警察」對於機器學習這門新學科的質疑前進的過程,並提出經過十年的發展,機器學習需要從野蠻生長到建立一個完整的體系的過程,並號召大家去為機器學習的理論框架添磚加瓦。

演講獲得了現場聽眾的高度認可,雷鋒網 AI 科技評論記者遇到 AAAI 主席 Subbarao Kambhampati 的時候,他也表示非常贊同 Ali Rahimi 的觀點。不過意外的是,Yann LeCun 覺得自己被冒犯了,他非常不喜歡演講中把深度學習稱作「鍊金術」的說法。Yann LeCun 在自己 Facebook 上發出一條長動態清晰地表達了自己的觀點:

Ali 的演講非常有趣,他的意思也講得很清楚。不過他想表達的東西我從根本上就不太同意。重點來說,他表達的意思是目前我們在機器學習方面的實踐就和「鍊金術」差不多(他的原話)。這擺明了就是侮辱。不過也不擔心,因為機器學習並不是「鍊金術」。

Ali 說,目前在機器學習中使用的許多方法,人們都缺少(理論性的)理解,尤其是在深度學習領域。

能夠讓人理解(不管是理論角度還是別的)當然是一件好事。讓方法變得越來越能被人們理解,也是包括我在內的許多研究者活躍在 NIPS 大家庭中的原因。

不過我們也有另一個重要的目標,那就是開發新的方法、新的技術,就像 Ali 說的,新的把戲。在科學技術的歷史上,工程方面的產品總是要先於理論理解一步:鏡片和望遠鏡先於光學理論問世,蒸汽機先於熱動力學問世,飛機先于飛行空氣動力學問世,無線電和數據通訊先於信息論問世,計算機先於計算機科學問世。

為什麼?因為理論研究者會自發地先研究那些「簡單」的現象,只有當複雜的問題開始有了重要的實踐意義的時候他們才會轉移注意力。

僅僅因為我們目前的理論工具還沒有趕上實踐的腳步就把一整個研究大家庭批評為一群「鍊金術」的執行者(況且這個大家庭做機器學習做得也相當不錯),這是很危險的。為什麼危險?因為十多年錢,在即便有充足的經驗證據證明神經網絡在許多情況下可以運行得很好的情況下,還是讓機器學習大家庭放棄神經網絡的恰恰就是這樣的態度。神經網絡,帶有非凸的損失函數,當時沒人能保證它們可以收斂(然而當時它們就實際上可以收斂,就和現在一樣)。所以人們就在倒洗澡水的時候,把盆里的小孩也一起倒掉了,把注意力全都放在了「可以證明」為凸的方法或者曾經輝煌過的樣板匹配方法上(甚至是從 1957 年傳下來的隨機特徵方法)。持續不斷研究的某一組方法,僅僅是因為它們可以用理論描述;同時忽略一組實際上效果更好的方法,僅僅是因為(當時還)不能從理論角度理解它們,就好像在路燈的光下找車鑰匙,即便你知道你的車鑰匙是在別的地方丟的。沒錯,我們確實需要對我們的方法有更多的理解,但是正確的態度應當是嘗試改善這個狀況,而不是出口冒犯整個大家庭,只是因為他們還沒成功。這不就和批評改良蒸汽機的瓦特沒成為熱力學學者卡諾或者沒成為物理學家赫爾姆霍茨一樣么。

我自己組織以及參與了數不清的 workshop,它們把許多深度學習的學習者和理論研究者聚到一起,他們中的許多人是 IPAM(UCLA 應用數學研究院)的成員。作為 IPAM 的科學顧問委員會成員之一,如何讓深度學習引起數學研究員們的興趣也是我考慮的重要任務之一。實際上,2018 年 2 月在 IPAM 上就有一個這樣的 workshop,我就是協辦者之一。Ali,如果在你天天要用的這些方法上,你覺得我們的理解不能讓你滿意,那就來動手改善狀況:你可以開始研究深度學習的理論,而不是報怨別人不做這些事;不要說以前的 NIPS 上只研究「理論上正確」的方法的時候就如何如何比現在的更好,因為並不是那樣。

Yann LeCun 的表態馬上引起了 Facebook、Twitter 網友們的轉發和討論。很快,Ali 本人也給出了回應:

Yann,謝謝你思考之後的回復。Moritz Hardt 一年以前也就給我說過「如果你不喜歡現狀,那就動手來改善狀況」這句話。我們只有一小組研究人員,想要做出進展也挺困難的。說實話,這件事的工作量之大讓我有點嚇到了。我在演講中也是希望有更多的人可以幫忙來一起解決。

我覺得問題不是出在理論上。數學也只做得了數學的事情,起不到多少幫助。我覺得問題在於研討方式上。我希望我們可以有簡單的實驗、簡單的理論,這樣當我們溝通深入的見解的時候就不會有迷惑之處。你可能非常擅於構建很深的模型了,因為你比我們中的大多數人都做過更多的實驗。那麼想象一下新加入這個領域的人會有多疑惑吧。之所以在我們看來這些東西像變魔術一樣,就是因為我們不在乎構小的基礎性研究結果,而總是在討論整個模型作為一個整體是如何奏效的。這個踏過門檻的過程非常讓人疑惑。

並且我確實覺得煉金過程是非常重要的。它們能讓我們前進得更快,它們能解決臨時遇到的問題。有些人能快速在腦海里形成直覺,然後構建出能奏效的系統,我對他們懷有最深的敬意。你,以及我在谷歌的許多同事都有這樣的令人欽佩的技能。這樣的人很稀少,很可貴。我希望研究風氣變得嚴格,有一部分原因是因為我們希望擅長這種煉金式思維的人能給我們其它的人帶來一些研究中的掘金手段,這樣我們也能達到你們那樣的高產出。我希望的「嚴格」就是這些研究中的掘金手段:簡單的實驗,簡單的理論。

LeCun 也繼續給出了回復

簡單、通用的理論確實是很好的。

比如熱力學研究發現的基本規律讓我們不再浪費時間尋找效率為 100% 的熱機以及永動機。

在機器學習中我們也已經找到了這樣的理論,對每個機器學習的機器都是適用的,包括神經網絡(比如連續性/容量理論,「沒有免費的午餐」定律,等等)。

但實際狀況很有可能是,我們沒有什麼「簡單」的理論是具體針對神經網絡的。人們解不出流體力學的納維-斯托克斯方程和三體問題也是由於同樣的原因。

LeCun 提到的 UCLA 應用數學研究院的成員之一 Mark L.Green 回復道

在科學中有許多領域都是實踐跑在了理論的前面。比如說,支持弦論的科學家就在他們的理論體系中發現了純數學的描述,但是同時數學家卻很難找到合適的理論體系。地理學家和生物學家發現了地球已經存在了多久的時候,解釋太陽為什麼能發光發熱的理論也還遠沒有出現。Yann,你有一群很好的夥伴,而這也是作為帶頭人的意義。另外謝謝提到 IPAM。

Yoshua Bengio 也加入了進來,一併講給在 LeCun 回復下討論的網友

提起鍊金術的時候,多數人們聯想到的都是它「沒什麼效果」、「全都是錯誤的理論」。而我們現在在深度學習有的,是部分的理論和部分的解決方案。這是完全不同的。我們其實也有許多的理論研究結果,讓我們對網絡為什麼能奏效有了更深入的了解,包括網絡深度帶來的指數級增長的優勢、從統計角度得到的分散的表徵(如果背後的函數是多項式的)、以及為什麼隨機梯度下降並不會卡在不好的局部最小值里,而且還能幫助網絡更好地泛化。

我們現在就有許多已經理解了的法則,其中最重要的是關於泛化和優化的。這些法則不允許我們預測超參數的細緻作用(超出了可量化的預測之外),但也確實是物理規律的體現;正如物理規律允許我們對宏觀、大量物體做精確的預測,但有些只有幾個天體的簡單系統(或者幾個原子的系統)就沒法預測。

在 Reddit 的討論區上,網友們也對 Yann LeCun 和 Ali Rahimi 兩人的觀點進行了各方面的評價。有網友覺得 LeCun 一如既往地對批評的聲音太敏感,有人覺得在深度學習越來越深入日常生活的時候也必須在可理解性上有大的飛躍,有人說當年人們放棄神經網絡更重要的原因是沒有足夠的計算資源訓練網絡,也有人提出 Ali 想要的「簡單的實驗,簡單的理論」到了更複雜的環境下根本就不會有用、甚至會得到相反的結論,等等等等。

作為觀眾,雷鋒網 AI 科技評論其實還挺願意看到他們這樣在爭論中把問題都放到檯面上來,同時也引發更多的關於神經網絡、深度學習的研究與實踐的討論。如今理論和實踐的研究都隨着領域的變大、變深而變得越來越窄,新入門者也越來越多,這是一個很好的讓身在其中的專家們重新審視一下整個領域、讓剛入門的研究者了解到更多的現狀和歷史的機會。雷鋒網 AI 科技評論也由衷希望這樣的爭論能幫理論科學家們提高實踐水平、提醒系統工程科學家們更多注意內在的理論基礎。

來源 MachineLearning @ reddit,雷鋒網 AI 科技評論編譯整理。


想在手機閱讀更多Apple資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems