谷歌研發新型深度學習系統,能夠在嘈雜環境中識別分離語音

..

【獵雲網(微信號:ilieyun)】4月16日報道 (編譯:葉展盛)

谷歌研究員開發出了一種深度學習系統,能幫助計算機在嘈雜的環境下識別和分離語音。

正如本周公司在Google Research里公布的那樣,谷歌的一支團隊想要模擬出人類大腦的「雞尾酒會效應」,即某個人在談話之中會忽略背景中其他的對話或噪音。

谷歌採用了一種視聽模式,因此其主要任務就是將視頻里的語音分離出來。這家公司表示,這種技術能通過算法,分離出單音軌視頻中的語音,你可以手動選擇某個人物,那麼就會播放這個人物的聲音。

谷歌表示,視覺成分是這裡的關鍵,這種技術會觀察某個人嘴部的活動,從而更好地確定要識別哪個語音,從而創建出更加精確的個人音軌。

根據博客的內容,研究人員在開發出這個模式的過程中,搜集了YouTube上10萬多份演講和談話,並從中提取了2000多小時的有效片段,並將這些聲音混合,並加入人工智能背景噪聲,創建了一個「模擬雞尾酒大會」。

隨後谷歌就開始訓練它通過解讀人們的「臉部微小動作」以及視頻的頻譜圖,將這份混合的音頻分解掉。這個系統能理清哪個聲源屬於哪一張臉,並為每一個人創建自己的音軌。

谷歌表示自己期待這種技術能「在眾多寬泛的情境下得以應用」,目前自己正在嘗試將它整合到現有的谷歌產品中。Hangouts和YouTube似乎是兩種容易應用的地方。另外我們也不難預見,這種技術也能在語音放大耳機以及智能眼鏡,也就是Google Glass上得到應用。

和Google Home這些智能音箱進行的語音識別不同,這種技術似乎更適合讓講話者配一台屏幕,因為它的模式就是基於視頻的。今年早期,谷歌對Echo Show等「智能顯示屏」設備開放了Google Assistant,但這家公司目前還尚未推出自己的產品。

AD:進擊•融合 獵雲網&AI星球2018年度人工智能產業峰會 將於4月17號在深圳大中華希爾頓酒店舉行。這裡有最深度的思考,最有價值的投資建議,以及最酷的黑科技展示,精彩不容錯過。


想在手機閱讀更多Google資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems