
亞馬遜的 Alexa AI 團隊已經為虛擬助手開發出了一種新的訓練方法,可以大大提升其處理複雜問題的能力。在一篇博客文章中,團隊負責人阿布達哈尼·阿布賈巴爾(Abdalghani Abujabal)詳細介紹了這種新方法。這種方法將文本搜索和訂製知識圖譜結合在一起,而這兩種方法通常是互斥的。
阿布賈巴爾提出了如下場景:你向 Alexa 提問,「諾蘭的哪些電影獲得了奧斯卡獎,但錯過了金球獎?」 想要做出回答實際上需要弄清楚多個問題,例如所說的 「諾蘭」 是否就是導演克里斯托弗·諾蘭(Christopher Nolan),找出他執導的電影(甚至需要從結果列表中去推斷他作為 「導演」 的角色),以及交叉確認他獲得奧斯卡獎的電影列表以及獲得金球獎的電影列表,最終找出哪些屬於前者同時不屬於後者。
針對這種複雜問題,亞馬遜的方法能帶來更好的答案。首先,這種方法收集儘可能完整的數據集,隨後基於該團隊的特定算法,利用大批量、存在大量噪聲信號的數據集(例如存在大量無用數據的數據集)自動建立專門的知識圖譜。這種算法能清理無用數據,並獲得大多有意義的結果。
亞馬遜設計的這個系統表面上看來相當簡單,或者更準確地說,這結合了兩種相對簡單的方法,包括基本的網絡搜索,即使用問題全文在網絡上抓取信息。這就像是在谷歌中搜索 「諾蘭的哪些電影獲得了奧斯卡獎,但沒有獲得金球獎」。(研究員在實際操作中使用了多個搜索引擎。)隨後,系統抓取排名前 10 的頁面,並將它們分解為一系列的標識名和語法單元。
基於產生的數據集,Alexa AI 的方法會在句子結構中尋找線索,對最主要語句進行標記和加權,例如 「諾蘭導演了《盜夢空間》」,並對其餘部分進行降權。這就建立了特殊的知識圖譜,隨後他們會對其中的 「基石」 進行確認。「基石」 實際上是原始搜索字符串中的單詞。這些單詞被拿出來,而單詞之間的信息會被當作對問題的答案。
通過對剩餘數據進行最終的加權和排序,算法會正確返回 「盜夢空間」 作為答案。亞馬遜的團隊發現,這種方法實際上擊敗了專註於文本搜索,或專註於建立孤立知識圖譜的最先進方法。不過他們也認為,可以繼續對這種方法進行調整優化。對於希望智能音箱去回答更高級問題的 Alexa 用戶來說,這是個好消息。
翻譯:維金
Amazon develops a new way to help Alexa answer complex questions