生成對抗網絡 GAN:讓 AI 有創造力,機器學習十年來最激動人心的點子

編者按:2014年,Ian Goodfellow提出生成對抗網絡(GAN)的概念, 從那之後,生成對抗網絡就一直是學術界的研究熱點, Yann LeCun還稱之為」過去十年間,機器學習領域最讓人激動的點子」。GAN目前的發展如何,能做到什麼,未來又有哪些展望?本文編譯自hackernoon的原題為「The New Neural Internet is Coming」的文章。


GAN是什麼 - 生成對抗網絡的發展過程

神經網絡是最近很流行的科技熱詞,其核心用途是分類。分類器是自動對輸入值進行分類的機器。分類器輸入的是一個數值向量,叫做特徵(向量)。分類器的輸出也是數值,代表分類的結果。分類器的目標就是讓正確分類的比例儘可能高。而生成對抗網絡(GAN)由一個生成網絡與一個判別網絡組成,通過讓兩個神經網絡相互博弈的方式進行學習。是非監督式學習的一種方法。

  •     生成網絡從潛在空間(latent space)中隨機採樣作為輸入,其輸出結果需要盡量模仿訓練集里的真實樣本。

  •     判別網絡的輸入則為真實樣本或生成網絡的輸出,其目的是將生成網絡的輸出從真實樣本中儘可能分辨出來。

  •     生成網絡則要儘可能地欺騙判別網絡。

  •     兩個網絡相互對抗、不斷調整參數,最終目的是使判別網絡無法判斷生成網絡的輸出結果是否真實(直至達到納什均衡)。

如果我們將典型的神經網絡(如圖像分類器)當作神經網絡「大腦」的左半球,那麼生成對抗網絡就類似大腦的右半球 ——負責創造力的一個半球。

GAN是培養神經網絡「創造力」的第一步。典型的GAN從隨機噪聲或者潛在變量中,根據特定的關鍵字生成圖像。目前,GAN生成的圖像質量不好,分辨率也有限。但最近NVIDIA取得了新進展:在高分辨率下生成逼真的圖像是可以實現的,他們開放了這項技術的權限。


條件GAN和變分自編碼器

GAN種類繁多,複雜程度、架構和簡稱各有不同。人們最感興趣的是條件GAN和變分自編碼器。條件GAN不僅能夠模仿「卧室」,「臉」,「狗」等大分類的圖像,它生成的圖像分類還可以更細。例如,Text2Image網絡能將對圖像的文字描述,轉換成圖像。

GAN生成的「假房間」、「假狗 」、「假名人 」和「假藝術品 」結果


通過設置「含義」向量的隨機種子,我們能夠產生無限個匹配描述的鳥類圖像。

輸入文字描述「這隻小鳥有白色的胸部、淺灰色的頭、黑色的翅膀和尾巴」文字轉化為向量加入隨機種子完成訓練的GAN給出結果


我們眼前的機遇

想像一下兩年後的世界。NVIDIA這樣的公司會將GAN技術發展到成熟的行業水準,就像現在我們能看到的名人頭像生成那樣。這也就意味着,GAN隨時可以按照要求生成任何圖像,你只需要給出文字描述就行了。那麼很多攝影和設計相關的產業就會過時。請看下圖分解。

給出不同的隨機種子,這個神經網絡能生成無限個圖像結果。

左邊為輸入的文字描述,右邊為GAN生成的結果。

輸入「我需要牛和海豚合體的照片。 」 得到圖一。

輸入「我需要牛和海豚分開的照片。」 得到圖二。

輸入「我需要牛和海豚分開,享受生活的照片。 」 得到圖三。

超級個性化

讓人寒毛直豎的地方在於,這樣的一個網絡不僅輸入它需要生成的目標的描述,還能接收到一個用來描述你,目標消費者,的向量。這個廣告能深度描繪出你的個性,你的網頁瀏覽歷史、最近的交易記錄和地理位置。所以GAN一次性生成的結果,是為你專門打造的。用戶點擊率一定會爆棚。

輸入「穿着我們品牌服裝的女孩兒 」+金髮、加州、夢幻紅色法拉利、優先白色,結果是左下角的圖。輸入「穿着我們品牌服裝的女孩兒 」+紅棕色頭髮、最近搜索過香奈兒、計劃去摩納哥旅行,結果是右下角的圖。

「測量」你的反應之後,神經網絡會進行調整,讓廣告越來越準確的符合你的品味,刺激讓你最興奮的點。


泡沫趨勢

所以,總有一天,網絡上會到處都是完全個性化定製的內容。

所有人看到的內容,都是結合自己生活方式、觀點看法和個人歷史,經過個性化調整的。在美國總統大選中,我們已經目睹了這種泡沫格局的激化,但未來的情況只會越來越糟。GAN可以將為個人生成各種內容,且不受媒體的限制 -從簡單的圖像廣告,到機器生成的複雜觀點,帖子和出版作品,從而創建出一個持續的反饋循環,根據人機交互不斷改進。不同的GAN之間會出現競爭——全面的自動化戰爭,而我們人類就是戰場。 這一趨勢背後的驅動力非常簡單——利潤。

這可不是什麼嚇唬人的末日言論,戰爭的號角早已吹響,只是我們還沒看到硝煙。


是好是壞?

我不知道。 但是有些事情已經刻不容緩:這種技術的到來已經不可避免,必須展開廣泛的公眾討論,以及做好喊停的準備。 所以,我們最好現在就開始思考 - 如何能夠在對抗這個過程的同時,從中受益?


技術方面

出於某些技術上的限制,以上描述的未來還沒有成真。 目前,由GAN生成的圖像質量還很差,很容易被發現是假的。 但NVIDIA已經向世界展示,生成1024x1024的逼真面孔是可行的。 如果技術要進一步發展,我們需要更快,更大型的GPU,更多關於GAN的理論研究,更多的訓練GAN的巧妙方法,更多的標記數據集...

注意: 我們不需要新的能源,量子處理器(但這可能有幫助)或者人工智能,來幫我們實現技術進步。 我們所需要的資源在幾年內就能完成,而一些大公司可能已經擁有這些資源。

另外,我們需要更智能的神經網絡。GAN的進展會首先應用於超分辨率技術,給超分辨率技術的進步帶來極大的好處。

氪官,你怎麼看?

編譯組出品。編輯:郝鵬程



想在手機閱讀更多中國內地資訊資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems