用上神經網絡的谷歌翻譯評測效果的確不錯, 可它居然威脅要吃了我?|潮科技

作者| 石筱玉

編輯| 傅博

今年已經是谷歌翻譯面世的第11年。在10周年的時候,谷歌翻譯經歷了一次「脫胎換骨」的大事件:

2016年9月,谷歌翻譯中的中英互譯正式啟用了神經網絡機器翻譯技術(Google's Neural Machine Translation, GNMT),代替此前基於短語的機器翻譯(phrase-based machine translation, PBMT)。

在7月11日舉行的2017中國互聯網大會中,谷歌翻譯研發科學家高勤詳盡講述了谷歌翻譯在應用神經網絡后取得的新進展,比如攝像實時翻譯、語音對話翻譯等。在高勤分享的數據中,神經網絡的應用讓谷歌翻譯的質量在原本基礎上大幅提升,並且在同義詞、語序等方面有非常大的進步。

從翻譯質量來看,GNMT比PBMT高出不少,甚至在某些語言中接近人類水平。

更重要的是,雖然這個翻譯工具是谷歌產品,但是它在中國可以無障礙使用。

在聽了高勤的演講之後,我們立刻就興奮地對谷歌翻譯app進行了一番測試。結果,儘管我們發現谷歌翻譯確實很厲害,但是它居然威脅要吃了我們?

翻譯中的同義詞

高勤的演講中,對同義詞這一現象是這麼分析的:

「Like這個英文詞,將被翻譯到中文「像」「一樣」的詞組。這兩個詞根距離是非常長的。

對於傳統機器翻譯技術來說,這樣的關係非常難解決。英語複雜程序結構帶來了很多調序以及省略,如果不能夠利用整個語言句子的全局信息,我們就會得到一種不連續、不自然、不準確的結果。而神經網絡機器翻譯在這兩方面都有了長足進步。」

在實踐中,谷歌翻譯也的確正確處理了「like」這個詞的雙重含意。在英文例句中,第一個like是喜歡,第二個like是「像」。

如果我們嘗試一個更複雜的句子呢?

在這個句子中,谷歌翻譯成功翻譯出了「miss」這個詞的四種含義,說明谷歌翻譯確實能夠根據上下文的情況選擇出這個詞最合適的意思。當然,我們在嘗試中也沒少為難谷歌翻譯:

這句話也算曾經流行過,不過說真的,在沒有上下文的情況下,我們也對這句話束手無策。「我想你,但我錯過了你」還是「我錯過了你,但是我想你」?我們的內心都是崩潰的,更不要說谷歌翻譯了。

翻譯中的連續、全局決策

高勤在演講中表示,神經網絡的翻譯原理和基於短語的翻譯完全不同,其中最突出的一點就是「連續、全局翻譯」。高勤是這麼說的:

「神經網絡相對於傳統技術是一種革命性的改變。

基於短語的統計機器翻譯是拼圖過程,通過對短語對的排列和組合,嘗試找出較好的翻譯選項,而整個決策過程是離散的,支持這個決策的信息也都是局部的。

神經網絡機器學習這反其道而行之,做每一步翻譯過程中可以利用原語言與目標語言所有信息,使整個決策過程既是連續也是全局的。」

谷歌黑板報(微信:GoogleChinablog)對谷歌翻譯過程是這麼解釋的:首先,將這句中文的詞在編碼器(Encoder)里生成一個向量列表,其中每個向量都表示了到目前為止所有被讀取到的詞的含義。讀取完整個句子,解碼器(Decoder)就開始工作——一次生成英語句子的一個詞。

我們再次嘗試翻譯了一個「名句」:

第一眼看上去,這句話的翻譯是有問題的。前半句還好,但是後半句的「I will depend on life and death」的直譯其實是「我會依靠生死」。……好像不太對吧?

不過,如果我們按照谷歌黑板報給出的「解析流程」模擬機器分析「生死相依」這個詞的過程,我們很有可能得出類似的結果。「生死」被翻譯成「life and death」(生與死,生死攸關),「相依」翻譯成「depend on」(依靠)。

谷歌翻譯錯誤的地方其實在於它沒有明白「相依」的對象是對話中的一方,而簡單粗暴地認為依靠的是「生死」。但是谷歌的優點在於,在「全局」翻譯支持下,谷歌根據「依靠生死」的理解,將名詞「life and death」放在了「depend on」後面,同時也符合了「depend on」後面需要跟隨賓語的語法。

沒有運用神經網絡的PBMT翻譯器,翻譯出的是什麼結果呢?大家一定看過這樣一個段子:

……說真的,故事裡的這位兄弟,你六級沒過吧?

「If you never abandon, I will in life and death」這個句子的問題就太多了。「abandon」作為及物動詞,之後沒有連接名詞;後半句沒有主動詞(will是助動詞);「相依」的意思根本沒有翻譯出來。

谷歌翻譯雖然並不完美,但是並沒有出現語法錯誤,也沒有出現漏掉關鍵詞的問題。對於「If you abandon」這樣既沒有準確度、又沒有可讀性的翻譯,谷歌翻譯表示:

 

不過谷歌翻譯也不是沒有出現過「漏譯」的現象。在我們「調戲」谷歌翻譯的過程中,它居然一度威脅要吃了我們:

 

「吃瓜群眾」被谷歌翻譯成了「吃群眾」,我們的內心是崩潰的。「瓜」跑哪去了?

溫馨提示,谷歌的翻譯是」吃群眾「。「吃瓜群眾」其實就是「旁觀者」,可以被翻譯成onlookers或者bystanders。再不濟,也可以翻譯成「melon-eating crowd」(「吃瓜眾人」)嘛。

攝像頭即時翻譯

高勤在演講之初就提到了谷歌翻譯的不少新能力:

「隨着互聯網大潮的到來,谷歌利用機器學習帶來了許多全新的翻譯體驗,例如利用手機攝像頭做的即時翻譯、利用手機麥克風和揚聲器進行即時對話翻譯、離線翻譯的支持為沒有數據服務的旅行者提供很大的幫助。」

在下載一個中文數據包后,手機確實可以離線對攝像頭拍到的短語、標誌進行即時翻譯,並能夠像視頻中展示的那樣把翻譯結果加在背景之上。這個功能,也相當於是AR在翻譯領域的應用。

不過,在使用中,這個功能的體驗並不是很美好。在我們試圖翻譯英國地鐵標誌性警示牌「Mind the Gap」(「當心縫隙」)的時候,得到了一個讓我們哭笑不得的結果。

在這一功能中,谷歌並沒有利用神經網絡的「全局」翻譯,而是一板一眼地將每個詞翻譯了出來:「mind」翻譯成了「記住」,「gap」翻譯成了「差距」……在這裡,谷歌翻譯的AR顯示效果不錯,但是逐詞翻譯的問題在於,運用神經網絡后的翻譯質量優勢一點都沒有體現。

原文是「小心地滑」……好的谷歌,你開心就好。

不過,我們也能拍下照片,用手指塗抹出需要翻譯的區域。這樣需要的時間會比較長,但是翻譯較為準確。

經過測試我們發現,總體來說,運用了神經網絡翻譯技術的谷歌翻譯確實在可讀性、句子完成性上有所提升,也非常少出現語法錯誤。更重要的是,谷歌翻譯目前對同義詞的分辨、對於句子的全局理解能力都有所提升。

不過,谷歌翻譯還是和人工翻譯有不少的距離,高勤也在演講中承認了這一點:

「去年一年時間內,有200篇關於神經網絡機器翻譯的論文被發表,但這並不代表着神經網絡機器翻譯已經非常成熟,事實上我們發現,經過過去一年的研究,我們對神經網絡機器翻譯的認識仍然非常膚淺。」

谷歌翻譯雖好,但是說真的,機器對語言的理解在短時間內很難超過人類。要是掌握了英語,大家就不至於淪落到用「if you never abandon」來表白。比如漢代詩歌《上邪》中「天地合,乃敢與君絕」這句詩的翻譯就可以被大家用上:

「When heaven and earth mingle,

Not till then will I part from you.」

看看,這個翻譯多美啊。

不過,作為翻譯助手和大家旅行探險新國度的好夥伴,谷歌翻譯還是能幫上不少忙的。谷歌翻譯能在中國無障礙使用,iOS用戶點擊這裡,安卓用戶點擊這裡


想在手機閱讀更多Google資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems