深度學習的爆發要歸功給誰?Yann LeCun、François Chollet各執一詞

.. 雷鋒網 AI 科技評論按:自從深度學習在各項任務中頻頻取得佳績、人工智能的研究員也越來越受追捧以來,許多人都加入了相關領域開始工作或者學習。不過,除了元老級的教授和研究人員之外,恐怕多數後來者都不是特別清楚神經網絡的乾柴是如何被點燃成熊熊烈火的。

近日 Ian Goodfellow、François Chollet、Yann LeCun 等人就在推特上簡單討論了「深度學習是怎麼火起來的?應該歸功給誰?」雷鋒網 AI 科技評論把他們的討論內容整理如下。

Ian Goodfellow

「GANs 之父」、谷歌大腦高級研究員 Ian Goodfellow 首先發推說道:

「看到很多人把深度學習看作是通過反向傳播完成的監督學習,這事真的很奇怪,要知道 2006 年的深度學習革命最初就是基於反向傳播和監督學習兩件事都不是很奏效的觀點的。」

在這條推文下面與網友的討論中,Ian Goodfellow 也繼續補充說明了自己的觀點:

  • 監督學習和基於梯度的優化方法,兩者的實際表現都比人們開始想象的要好,所以做深度學習的人才開始用它們了。

  • (回復網友「Hinton 的無監督預訓練和深度置信網絡並沒能給深度學習帶來什麼突破。6 年後使用了監督學習和反向傳播的 AlexNet 才是突破(當然了還有 GPU、卷積層、ReLU、dropout)」)無監督預訓練和深度置信網絡是另一件 2006 開始的更大的變革的一部分。Yoshua 的實驗室在去噪和壓縮自動編碼器的堆疊上做了很多工作,Yann 的實驗室在預測性稀疏分解等模型的堆疊上做了很多工作。

François Chollet 和 Yann LeCun

Keras作者、谷歌大腦高級研究員 François Chollet 幾個小時后也發出推文:

「我看到很多人都言之鑿鑿地說深度學習的大爆發開始於 Krizhevsky 等人 2012 年的成果。但是我很少看到有人記得 Ciresan 等人也有功勞,他們 2011 年的時候就用 CUDA 實現深度卷積網絡、在 NVIDIA GPU 上訓練,並贏得了圖像分類比賽冠軍。」「我指的是 IJCNN 2011 上的德國交通信號燈識別比賽,以及 ICDAR 2011 中文手寫字符識別比賽。」

然後(話很多的) François Chollet 也在下面評論區繼續着討論,「CNN之父」、Facebook 人工智能實驗室總監 Yann LeCun 也參與了進來:

  • François:我還記得自己在 2014 年的時候問過 Dan Ciresan 怎麼看 Torch7,那時候我還是 Torch 用戶。他給我的回答簡單總結一下是說,他覺得裡面的 bug 一串接着一串沒法用,他還是更喜歡用自己寫的 CUDA 代碼。那時候我不太贊同他的立場(現在也不)。

  • Ian:這篇論文里的卷積網絡在CUDA出現之前就用了GPU https://hal.inria.fr/inria-00112631/document 

  • Yann:回復 Ian :沒錯。那個時候(2005 年)微軟研究院的 Patrice Simard 還需要向 NIVIDA 要一些專用文件。把多重卷積操作轉換成矩陣乘積比較快的這件事是他的團隊首先發現的。

  • François:回復 Ian :你覺得哪個是更大的突破?是卷積網絡在 GPU 上運行得更快了,還是卷積網絡可以贏下參與者眾多的圖像分類比賽?

  • Ian:回復 François :2011 年的時候我也用 GPU 上跑的卷積網絡贏過機器學習比賽(NIPS 的遷移學習比賽),不過我沒覺得這是深度學習大爆發的開始

  • Yann:回復 François :後者更重要。其實在用上 GPU 、拿下交通信號燈比賽冠軍之前,卷積網絡就在一系列 benchmark 中取得了最佳成績。只是那時候整個社區還不相信卷積網絡,或者是覺得這之間沒什麼聯繫。ImageNet 比賽改變了這一切。

  • François:回復 Ian :我覺得沒人會低估 AlexNet 一舉掀起深度學習熱潮的重要意義(明擺着的)。不過同時也很難否認這就是當時的浪潮的一部分。討論歸功給誰很複雜,我們這個社區在這件事情上並沒有一直做得很好。

  • François:回復 Ian :再說明白一點:討論做出的貢獻的時候,人們往往會掉進「贏者通吃」的觀念里,把創新的想法看作是逐漸的積累過程,而其實宏觀的趨勢可能要比單個人的貢獻更重要。

總結

討論最後總結一下,三個人表達的意思分別是:

Ian Goodfellow:神經網絡發生革命的原因並不是反向傳播和監督學習,它們只是如虎添翼。GPU 的使用也並不是革命性因素。

François Chollet:當時的趨勢就是很多人都在用 GPU 運行神經網絡,我們事後不應該只歸功給 AlexNet。

Yann LeCun:在 AlexNet 之前,運行在 GPU 上的卷積神經網絡就已經成績斐然,但正是 AlexNet 在 ImageNet 比賽上的亮眼表現成功贏得了整個領域的關注。

過去的事情畢竟已經過去了,不過這簡單的回顧也提醒了我們,一方面不要把反向傳播和有監督學習看作是深度學習的理所當然,另外也要正確認識技術趨勢和其中湧現出的典型成果之間的關係。

via Twitter,雷鋒網 AI 科技評論整理編譯


想在手機閱讀更多IT人物資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems