人類感知和深度學習有何不同?

.. 人類與機器相比為什麼會產生錯覺?人類感知和深度學習系統在識別圖像與聲音上有什麼區別?它們是如何感知的,原理是什麼?本文將對上述幾個方面的內容給出詳細解釋。


https://twitter.com/victoria1skye

我們如何看待這個世界?為了理解這一點,首先讓我們探討一下我們是如何錯誤地認識世界的。「矩陣中的瑕疵」(glitches in the matrix)將會向我們揭示我們感知的本質。

Victoria Syke創造了上圖所示的視錯覺效果,這張圖片擾亂了我們的感知。這張圖片給人的錯覺是,深藍色的線條都是傾斜的。你可以通過滾動圖像使其與瀏覽器窗口頂部對齊或者從一個邊逐步測量圖像來證明這一點。

我想知道的是,為什麼這種錯覺會產生?我們的認知過程中,到底是什麼導致了錯覺的產生?

在上面的錯覺中,你會注意到淺藍色條紋和黑色條紋的相交區域中的元素在某一特定方向上會有越來越小的趨勢。除此之外,你還會感覺到深藍色條紋里的線條高度不同。當這兩種視覺效果相互結合,就會給人一種錯覺,即條紋具有不斷向上或向下的趨勢。

即使將圖像旋轉90度,淺藍色條紋也會顯示為平行。這是因為淺藍色條紋上的深色圖案和大小都是相同的,並且它們也處在同一水平線上。

Victoria Syke 創造這個圖像的靈感來自於兩個方面:Richard Gregory對於「咖啡牆錯覺」Cafe Wall Illusion)的觀察以及Akiyoshi Kitaoka的邊緣錯覺 Fringe Edge Illusion)理論。

當牆壁的磚塊採用亮度對比非常明顯的黑白兩色進行交替排布時,視覺上就會顯現出一種錯覺的感受:

https://fineartamerica.com/featured/cafe-wall-illusion-spl-and-photo-researchers.html

這種方式所產生的錯覺效果是每塊磚似乎比鄰近的磚要更大(或更小) 。Syke還利用了Akiyoshi Kitaoka的「邊緣錯覺」和星形聯接錯覺理論(Y-junction illusion)來進一步加強效果。順便說一下,這種效果也可以在垂直方向上起作用。

邊緣錯覺

星形聯接錯覺(Y-junction illusion)

人腦顯然沒有將圖像看成是一個整體。相反,它將圖像視為多種圖像的組合,同時識別出彼此之間的相鄰關係。為什麼相鄰關係對我們的視覺有如此強烈的影響?我們現在已經進化到可以充分利用聯想(affordances )來幫助我們的大腦更快地重建圖像。換句話說,我們的大腦可以立即識別出有助於我們理解場景的模式。我們的視覺感知自動執行一種語義推理,使得更高層次的語義模式不會被忽略。這就是為什麼無論我們多麼使自己堅信線條確實是水平的,但是像上面這樣的幻覺還是會出現。

這種錯覺效果也發生在音頻領域。有一種被稱為Shepard Tone(謝巴德音調)的聽覺錯覺。這種錯覺是由三個上升的音調造成的。其中一個更高的音調會聽起來更加低,中間的音調具有恆定的響度,第三個低音聽起來變得更高。大腦產生的錯覺是會聽到兩個總是上升的音調。下面這個視頻是最好的例子(從0:40開始):

圖像和聽覺系統中的錯覺向我們揭示了人腦如何感知世界的。當我們的大腦看到彼此相互關聯的圖像和聲音時,就會開始在腦海中通過想象來預測進展,即使是這種進展完全不存在也會這樣做。人腦不能在超越它所看到的東西之外進行想象預測,因此就會進行錯誤的重建。你在看上面圖片的時候,你不可能不會注意到傾斜的線條。如果你遠看圖像或以一定角度觀察圖像,則會消除一些細節對你的干擾,因此就可以正確地重構現實。

但為什麼相對量對我們的生物學很重要?我們可以從藝術中學習到哪些元素會產生深度感:物體重疊、縮小比例、大氣視角、垂直位置和線性視角。大腦充分利用這些聯想來重建世界的三維視角。我們生活在三維世界中,我們的感官旨在理解並與這個世界互動。對物體三維結構的重構是導致視錯覺的主要原因,棋盤的陰影錯覺很好地解釋了這個現象:

A和B具有相同的色調

下面鏈接中是另一組令人產生錯覺的圖像,它說明了人類大腦必須有足夠的時間才能正確地重建其感知:

視頻鏈接:https://www.youtube.com/watch?v=LcpliVYfEqk

在上面的實驗中,當你的視線聚焦於中心時,你會注意到視線邊緣的面部變得扭曲了。當圖像閃現的達到一定速度,我們的大腦在感知圖象時,會受到前後兩張圖片的干擾,但圖像閃現的速度又沒有慢到可以使我們的大腦來得及進行正確的圖像重建,因此產生了現在看到的錯覺效果。

人類大腦在圖像識別上會使用聯想的方法(例如捷徑和啟髮式)來構建其用於感知的模式,而深度學習網絡則不同,它完全依賴於圖像捕捉。深度學習網絡專門使用忽略某些不變性的網絡進行訓練(例如ConvNets翻譯),而人類大腦的工作方式似乎不同,我們習慣於使用語義傳達的模式。深度學習網絡沒有經過人類這種聯想的訓練,因此它缺少了可用於語義傳達的圖像識別能力,為了達到我們在人類中發現的那種視覺感知,我們必須訓練深度學習系統來學習一些基本的人類圖像識別技巧,例如遮擋,透視和陰影:

為了說明深度學習系統的視覺認知與人類是多麼不同,最近的一篇名叫《Investigating Human Priors for Playing Video Games》的文章研究了如何去除人類在遊戲中由於聯想產生的錯覺:

這個實驗對街機遊戲的紋理進行了重新修改及渲染,在修改後的遊戲中,人類表現都非常糟糕,但相比之下,深度學習系統在兩款遊戲中都表現相當,這說明了深度學習系統不需要使用人類經驗。另一方面,人類可以通過進行少量的訓練來學習一款遊戲,是因為我們可以利用現有的人類經驗(或聯想)。這個實驗告訴我們,人類可以通過先前的經驗來進行快速地學習。

DeepMind 的Pyschlab(心理實驗室)是一個探索深度學習和人類視覺識別之間差異的組織。Pyschlab包含許多人類和機器都能完成的實驗。我們可以通過考察雙方在表現上的差異,來了解它們在認知上的差異性。總的來說,我們可以觀察到,人類可以同時採用混合併行處理和順序處理兩種形式,而機器只採用并行處理這一種方式,這一差異我們可以從任務完成度的下降中辨別出來:

這一數據表明了在人類大腦中有并行和順序兩種視線之間的區別,而深度學習系統似乎只有并行一種。確認人類大腦與我們當前的深度學習系統之間的差異性,就相當於揭示出了一個改進未來深度學習系統設計的途徑。

DeepMind的另一篇發表在《BioArxi》雜誌上的論文《Prefrontal cortex as a meta-reinforcement learning system》,提出大腦會使用兩種不同的強化學習系統的論題。論題假設人類大腦中的強化學習系統是由多巴胺的釋放所驅動的,這是一種獎勵驅動學習的標準模式。DeepMind認為有兩個強化學習系統,一個是基於標準多巴胺分泌的模式,第二個位於前額葉皮層,前額葉皮層學習會受前一個系統的影響。實際上,標準的多巴胺分泌模式已經學習了人類的先前經驗(或聯覺效應),並利用它來指導對前額葉皮層更動態的學習。

所以每當我們看到一些東西,我們只能看到它在過往的人類經驗中的形象。然而,正如你在人臉識別的例子中看到的,在工作中需要有一個認知過程,試圖重建它所看到的東西。太快地停止重建過程,你就會看到它是如何發生錯誤的。我們的大腦始終採用啟髮式的方法,但我們發現啟髮式在很多方面都會出現錯誤。

視頻鏈接:https://betterhumans.coach.me/cognitive-bias-cheat-sheet-55a472476b18 Buster Benson

傑弗里·辛頓(GeoffreyHinton)的膠囊網絡( Capsule Network)可能走在了正確的軌道上。在膠囊網絡中,有兩個重要的階段,第一個階段能夠使用ConvNet識別對象的一部分,然後在第二階段中,採用投票的形式表決識別對象的哪種組成形式是最有可能被感知的。這兩個階段,其中前者是對象的識別,後者是推理,這種深度學習網絡似乎越來越受到研究界的重視。

視頻鏈接: https://www.youtube.com/watch?v=pPN8d0E3900

在二十世紀八十年代,由於計算機的發展,出現了一個新的領域,被稱為計算科學,它不同於現有的科學方法(即理論和實驗)。計算科學通過計算機模擬來探索物理系統。同樣的,深度學習的研究也正在滲透到神經科學和心理學領域。也就是說,當我們將模擬與我們自身進行比較時,我們便開始了對自身本質的了解。

總的來說,深度學習的研究趨勢,是開始對人類感知的本質的更深入地挖掘,並找出它與深度學習感知的不同之處。從一個深度學習研究者的角度來看,僅僅理解數學和技術是不夠的,還必須對人類基本感知的特徵有所了解。對於深度學習來說,識別相反特徵是有難度的,這一點是公認的。要解決這樣的問題,我們首先必須要理解為什麼對於人類而言這個問題是不存在的。這正是傑弗里·辛頓(GeoffreyHinton)在他對「卷積網絡有什麼問題」的演講中所論述的問題。

 

相關文章

對機器學習時代設計工具的再思考

UI原則會話-網站聊天機械人設計全過程(下)


原文作者:Carlos E. Perez

原文鏈接:https://medium.com/intuitionmachine/our-minds-see-and-hear-only-what-we-imagine-dc303056171

譯文僅作學習用途,轉載請註明:本文來自UXC原創翻譯,如有其他用途請聯繫作者


想在手機閱讀更多Apple資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems