分析梯度下降的軌跡,更好地理解深度學習中的優化問題

雷鋒網 AI 科技評論按:神經網絡的優化本質上是一個非凸問題,而簡單的基於梯度的算法在實踐中似乎總是能夠解決這類問題。這種現象是深度學習的核心支柱之一,而目前有許多理論科學家家正試圖解開這個謎:為什麼基於梯度的方法能夠在深度學習的優化中行之有效。

一篇來自 offconvex.org 博客的文章對最近一些試圖解決這個問題的工作進行了綜述,並且在最後討論了作者本人與 Sanjeev Arora,Noah Golowich 以及 Wei Hu 等人一起撰寫的新論文(https://arxiv.org/pdf/1810.02281.pdf)。在這篇論文中,他們針對深度線性神經網絡中的梯度下降問題,提出了一種能夠保證以線性速率收斂到全局最小值的方法。關於深度學習應用的論文多如牛毛,而關於基礎工作原理的文章彌足珍貴。雷鋒網 AI 科技評論全文編譯如下。

函數圖像曲面方法及其局限性

許多關於深度學習優化的論文都隱含着這樣一種假設,即通過建立損失函數圖像的曲面(landscape)的幾何特性(特別是在臨界點,也就是梯度開始消失的點),可以嚴謹地理解這種優化方法。例如,通過與凝聚態物理中的球形自旋玻璃模型進行類比,Choromanska 等人在 2015 年提出了一個現已在深度學習領域廣為人知的觀點:

函數曲面猜想(Landscape Conjecture):

在神經網絡優化問題中,次優臨界點的 Hessian(二階導矩陣)的特徵值很可能存在負數。換而言之,幾乎沒有糟糕的局部最小值(讓梯度下降算法誤認為局部最小值是全局最小值的點),而且幾乎所有的鞍點都是嚴格的。

該猜想的對於各種包括淺層(2 層)模型在內的簡單問題的損失函數圖像的曲面的強形式已經得到了證明,這樣的問題包括矩陣感知(https://papers.nips.cc/paper/6271-global-optimality-of-local-search-for-low-rank-matrix-recovery.pdf  )、矩陣補全(https://papers.nips.cc/paper/6048-matrix-completion-has-no-spurious-local-minimum.pdf  )、正交張量分解(http://proceedings.mlr.press/v40/Ge15.pdf  )、相位反演(https://arxiv.org/pdf/1602.06664.pdf  )以及帶二次激活的神經網絡(http://proceedings.mlr.press/v80/du18a/du18a.pdf  )等。目前已經有一些工作針對當函數曲面猜想成立時如何實現梯度下降收斂到全局最小值進行了一些研究。例如,Rong Ge(http://www.offconvex.org/2016/03/22/saddlepoints/  )、Ben Recht(http://www.offconvex.org/2016/03/24/saddles-again/  )、Chi Jin 和 Michael Jordan(http://www.offconvex.org/2017/07/19/saddle-efficiency/  )等人的博客中有一些在這類工作方面非常棒的介紹文章。他們介紹了梯度下降可以如何通過逃離所有嚴格的鞍點來達到二階局部最小值(Hessian 為正半定的臨界點),以及當將我們對算法添加擾動時這個過程將如何起作用。請注意,在函數曲面猜想下,即當沒有糟糕的局部最小值、也沒有非嚴格鞍點時,二階局部最小值也就是全局最小值。 

然而,出於很多原因,函數曲面方法(和函數曲面猜想)顯然不能像這樣被應用到深度(三層或更多層)的網絡上。首先,深度網絡通常會引入非嚴格鞍點(例如,在所有權重都為零的點,詳情請參閱 Kawaguchi 等人在2016 發表的論文「Deep Learning without Poor Local Minima」:https://papers.nips.cc/paper/6112-deep-learning-without-poor-local-minima.pdf  )。其次,函數曲面方法的觀點很大程度上忽視了算法層面上的因素,而在實踐中算法層面的因素對深度網絡的收斂有很大的影響——比如初始化方法的類型(http://proceedings.mlr.press/v28/sutskever13.html  )或批量歸一化(http://proceedings.mlr.press/v37/ioffe15.pdf  )。最後,正如我在之前的文章(http://www.offconvex.org/2018/03/02/acceleration-overparameterization/  )中談到的,基於 Sanjeev Arora和 Elad Hazan(http://proceedings.mlr.press/v80/arora18a/arora18a.pdf  )的工作,為經典線性模型添加(冗餘)線性層有時可以加速基於梯度的優化過程,這樣做儘管會為之前的凸優化問題引入一定的非凸性,但是不會增強模型的表現能力。任何只依賴於臨界點屬性的函數曲面分析都難以解釋這樣的現象,因為通過這樣的方法,沒有什麼比優化一個具有全局最小值的臨界點的凸目標函數更簡單的了。

另一種可能的解決方案?

函數曲面方法在分析深度學習中的優化問題時的局限性說明它可能忽略了太多重要的細節。也許,與其思考「函數曲面方法是否是一種優雅的方法?」不如把問題轉向「由特定的初始化方法得到的特定優化器的軌跡有怎樣的行為?」

儘管基於軌跡的方法似乎比函數曲面分析更加複雜,但是這種方法已經取得了顯著的進展。最近的一些論文(如 Brutzkus and Globerson 2017(http://proceedings.mlr.press/v70/brutzkus17a/brutzkus17a.pdf  );Li and Yuan 2017(https://papers.nips.cc/paper/6662-convergence-analysis-of-two-layer-neural-networks-with-relu-activation.pdf  )、Zhong et al. 2017(http://proceedings.mlr.press/v70/zhong17a/zhong17a.pdf  );Tian 2017(http://proceedings.mlr.press/v70/tian17a/tian17a.pdf  );Brutzkus et al. 2018(https://openreview.net/pdf?id=rJ33wwxRb  );Li et al. 2018(http://proceedings.mlr.press/v75/li18a/li18a.pdf  );Du et al. 2018(https://arxiv.org/pdf/1806.00900.pdf  );Liao et al. 2018(http://romaincouillet.hebfree.org/docs/conf/nips_GDD.pdf  ))已經採用了這種策略,成功地分析了不同類型的淺層模型。此外,基於軌跡的分析也正開始涉足函數曲面方法之外的領域,他們已經針對線性神經網絡的情況,成功地實現了在任意深度下使用梯度下降方法收斂到全局最小值。

針對深度線性神經網絡的基於軌跡的分析

線性神經網絡是帶有(或不帶有)線性激活函數的全連接神經網絡。具體而言,一個輸入維度為d0、輸出維度為dN、隱層維度為 d1,d2,...,dN-1,深度為 N 的線性網絡是一個從 Rd_0 到 Rd_N的線性映射,它被參數化為

其中

可以被看作第j層的權值矩陣。儘管這樣的表示方法看起來沒有什麼特別,但線性神經網絡優化過程的複雜度卻讓人有些驚訝,它們會導致具有多個最小值和鞍點的非凸訓練問題。用於線性神經網絡的基於梯度的算法被人們認為是一種深度學習中的優化問題理論上的替代品,近一段時間,它們在線性神經網絡上的應用受到了極大的關注。

據我所知,Saxe et al.2014(https://arxiv.org/pdf/1312.6120.pdf  )的工作首次對深度(三層或更多層)的線性網絡進行了基於軌跡的分析,在白化后的數據上處理最小化 L2 損失的梯度流(學習率極小的梯度下降)。儘管這個分析有很重要的貢獻,但卻並未正式實現收斂到全局最小值,也沒有考慮計算複雜度方面的因素(收斂所需的迭代次數)。近期研究 Bartlett et al. 2018(http://proceedings.mlr.press/v80/bartlett18a.html  )的研究在解決這些問題的工作上取得了進展,通過將基於軌跡的分析用於線性殘差網絡的特定環境的梯度下降,即在所有層中統一寬度(d0=d1=d2=...=dN)及初始化方式(對於任意的 j,有 Wj=I)的線性網絡。考慮到不同的數據-標籤分佈(他們將其歸納為「targets」),Bartlett 等人展示了可證明的梯度下降以線性速率收斂到全局最小值的情況——損失函數值在經過O(log1/ε)次迭代后與最優值的差小於ε(大於 0)。

在本文作者與 Sanjeev Arora、Noah Golowich 以及 Wei Hu 合作撰寫的一篇新論文(https://arxiv.org/pdf/1810.02281.pdf  )中,我們在發揮基於軌跡的方法的功效方面又向前邁進了一步。具體而言,我們分析了任意不包含「瓶頸層」的線性神經網絡梯度下降的軌跡,瓶頸層的隱藏維度不小於輸入和輸出維度之間的最小值(對於任意的  j,有 dj≥min{d0,dN});我們還證明了以線性速率到全局最小值的收斂性。我們指出了初始化方法需要滿足下面兩個條件:(1)近似平衡度:對於任意的 j,有 WTj+1Wj+1≈WjWjT;(2)缺失邊界:初始損失小於任意秩缺虧缺解的損失。我們證明這兩個條件都是必要條件,不滿足其中任意一個都可能導致軌跡不收斂。在線性殘差網絡的特例中,初始化時的近似平衡度很容易滿足,而且對於通過以零為中心的微小隨機擾動進行初始化的常見設定也同樣成立。後者也會導致出現具有正概率的缺失邊界。對於 dN=1 的情況(即標量回歸),我們提供了一個能同時滿足這兩個條件的隨機初始化方案,因此能在恆定概率下以線性速率收斂到全局最小值。

我們的分析的關鍵在於觀察「如果權重被初始化到了近似平衡的狀態,它們是否會在梯度下降的整個迭代中一直這樣保持」。換句話說,優化方法所採取的軌跡遵循下面的特性:

也就是說,在整個時間軸上,所有的層(近似地)都有相同的奇異值集合,每一層的左奇異向量(近似地)與下一層的右奇異向量相同。我們說明了這種規律性意味着梯度下降的穩定地運行下去,從而證明,即使在損失函數圖像整體上來說十分複雜時(包括許多非嚴格鞍點),它可能在優化器所採取的特定軌跡周圍表現得尤為良好。

結語

通過函數圖像方法解決深度學習中優化問題,即分析與訓練使用的算法無關的目標函數的幾何性質,從概念上來說十分吸引人。但是這一策略存在固有的局限性,主要是因為它要求整個目標函數都要很優雅,這似乎是一個過於嚴格的要求。替代函數圖像的一種方法是考慮優化器及其初始化方法,並且僅僅沿着所得到的軌跡關注其函數圖像。這種替代方法正得到越來越多的關注。函數圖像分析目前僅限於淺層(兩層)模型,而基於軌跡的方法最近已經可以處理任意深度的模型,證明了梯度下降能以線性速率收斂到全局最小值。但是,由於基於軌跡的分析方法僅僅在線性神經網絡上取得了成功,仍有還有很多工作有待完成。在我看來,基於軌跡的方法也將成為我們正式理解深度非線性網絡的基於梯度的優化方法的關鍵。

via offconvex,雷鋒網 AI 科技評論編譯


想在手機閱讀更多程式設計資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems