從實驗室到熒屏,「搜狗AI合成主播」是如何接近真人的?

「真人播報效果已經夠好了,為什麼我們還要合成一個AI主播?」

2018年底,新華社聯合搜狗在第五屆世界互聯網大會上發佈全球首個AI合成男主播。該AI合成主播「克隆」於真人主播邱浩。今年2月19日,該男主播升級成為站立式AI合成主播「新小浩」,並推出全球首個AI合成女主播「新小萌」。站立式「新小浩」不僅能坐着播報新聞,還能站起來,帶着手勢、姿態等多種肢體動作,更接近於真人。

上述兩位AI主播至今已經播報了幾千餘條新聞,並引發世界範圍熱議。

作為新華社AI主播背後的技術負責人,搜狗語音交互技術中心高級總監陳偉對鈦媒體解釋道,使用AI主播最大的意義在於幫助提升效率,將真人主播從大量重複性勞動中釋放出來,從而有更多精力投身到深度訪談或其他工作中。「播報一個新聞一般會有場地、時間、主播本身精力的限制,每天的產出很有限,資源本身又是受限。但AI主播不同,可以工作24h,也不必擔心有錯誤出現。」

搜狗從12年開始研發智能語音技術,並逐漸從最早的語音識別發展到現在的多模態識別,其智能語音技術已經成功應用到搜狗的全線產品中。

其中,AI「分身」技術致力於如何讓機器更好的去表達信息,是多模態識別一個很好的展示及落地途徑。目前,通過語音、手寫、唇語等多模態識別,僅需幾個小時的視頻資料就可以合成一個比較逼真的真人形象。

而更簡單快捷的是,在建模完成後,編輯人員僅需要輸入文字資料,即可讓AI形象按照文字播報。無需進行二次視頻編輯,AI主播將自動識別語義並配上對應音調及表情。「我們給到新華社的系統,新華社只要每天在想要播報的新聞,過幾秒鐘生成一個完整的視頻,中文、英文不同類型的新聞視頻就可以馬上出來。」

與市面上其他專註語言交互的團隊不同,搜狗分身更關注語音、圖像加NLP完整能力的融合表達。因此,「逼真度」是團隊衡量AI分身技術的一個重要指標。

陳偉介紹到,初期,團隊採用主觀的方式來衡量AI分身的真實度,最近也逐漸考慮採用一些客觀標準。

未來,團隊將會更關注微表情,關注怎麼樣讓AI分身結合更好的姿態,更自然地表達。在圖像上面要考慮2D+3D混合的技術,在語音基礎上面有更多NLP的能力進來,讓AI分身的認知能力加強。

但並不是說,AI分身的真實度已經達到了令人恐慌的階段。

「實際上我們對其實每前進一步都很難,比如讓AI主播動起來,擺頭,這一動作都比單純的正面播報要困難得多。要想做到電影里展示那樣與真人無異,至少還需要5-10年。」

拿AI主播來說,其功能還停留在播報階段,更多交互功能有待於進一步開發。陳偉也透露,搜狗分身將於今年年內推出交互能力。

就在不久前,一段將朱茵變臉楊冪的視頻在網上走紅,AI換臉技術deepfake開始被大眾讀者熟知。這也引發了公眾對AI虛擬形象的質疑——是否致使肖像權被隨意侵犯?

當然,在技術上,分身也與換臉有着本質的差別,「換臉實際上是把一個人臉映射到另一個人臉上,前期投入成本很大,但『分身』一旦建模之後,只需要輸入文字就可以生成視頻,不需要任何錶演成本在裡面。」

陳偉表示,搜狗當然考慮到了人工智能倫理問題。「我們更多的想法是跟很確定的公司和領域合作,盡量找到剛需的場景。這樣的好處就是不會把技術濫用。」

因此,與做幾個簡單Demo不同,搜狗這一分身技術不僅僅是停留在實驗室階段,而是將深入不同剛需場景,在不斷迭代中快速進入商業化落地階段。

在陳偉的預想中,在「分身」技術的支持下,視頻製作成本將會大大降低,最終惠及用戶。

首要的就是與搜狗現有產品線打通。像在輸入法搜索,包括搜狗AI硬件上面「分身」技術將如何落地,都正在探討中。

而通過與新華社的合作實踐,AI「分身」技術也吸引了不少客戶。比如在AI老師上,已經有項目正在進行中。「像公開課這種老師單向輸出的形態,特別適合做(AI分身)。老師只需要準備教案和文稿,通過這種方式形成各種教學視頻,後期加上一些剪輯也可以帶有一定的交互能力。這種比單純的文字教學效果要好得多。」

在技術上,「分身」支持搜狗公有雲調度,同時也支持私有化部署,可在客戶本地部署「分身」整套服務。提供出去的服務在資源佔用上、實時性都可以達到要求。可以根據客戶手中IP打造「AI分身」,也不排除塑造全新虛擬形象的可能。

陳偉透露,後續,搜狗AI「分身」會繼續在教育,法律,醫療,娛樂等領域發力。(本文首發鈦媒體,作者/趙宇航)

更多精彩內容,關注鈦媒體微信號(ID:taimeiti),或者下載鈦媒體App


想在手機閱讀更多電腦與科技資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems