試想一個場景,職場中接到一個香港客戶的單子,但是在交付的過程中耽擱了時間,現在要進行線上溝通解釋,那麼你面對的情況大致是這樣的:
如果不對這段音頻進行標註,可能大部分人會認為這一粵語、英語混用的片段是真實發生或從TVB電視劇里截出來的。但其實,這是由 AI 完成的配音,背後所使用的工具是海螺語音。
今年 1 月,繼 MiniMax 發佈並開源基礎語言大模型 MiniMax-Text-01 和視覺多模態大模型 MiniMax-VL-01 后,再次推出了升級的語音大模型 T2A-01 系列,搭載於海螺 AI 之上,開闢海螺語音板塊。相較於舊版本, T2A-01 系列語音模型能夠提供更快、更穩的語音生成能力,不僅具有音質穩定清晰、韻律自然、情緒精準表達、高準確度等特點,還能支持包括中文、粵語、英語在內的 17 種語言及上百種預置音色可選。
從以上的音頻中可以聽出,海螺語音能夠準確理解並無縫處理不同的語種,並飽含語氣、以接近人聲的自然度講出來,這就是目前海螺語音無需抽卡就可以達到的穩定水平。接下來,我們通過海螺語音和其他語音生成產品的對比來來感受一下,無需抽卡即可以達到高水平的穩定輸出是什麼樣的概念。
測試問題為一個終極難度的繞口令「施氏食獅史」,主要考驗的是語音大模型在面對大量同聲詞時的處理能力。(原文:石室詩士施氏,嗜獅,誓食十獅。氏時時適市視獅。十時,適十獅適市。是時,適施氏適市。氏視是十獅,恃矢勢,使是十獅逝世。氏拾是十獅屍,適石室。石室濕,氏使侍拭石室。石室拭,氏始試食是十獅屍。食時,始識是十獅屍,實十石獅屍。試釋是事。)
先來聽由 ChatTTS 生成的內容:整個過程中字與字的區別並不大,產生很強的粘連感,聽起來像石獅石獅石獅石獅......可以說聽不出來在讀什麼。
再來聽 ElevenLabs:可能是模型幻覺的原因, ElevenLabs 在讀的時候很喜歡「呱呱叫」,就算去調整語速也不會好轉。但相較於ChatTTS,已經有一個明顯的質量上的提升,字與字之間能夠區分開,並且語音中有語調和情緒在。
再來聽 MiniMax 的海螺語音輸出的內容:首先,整段聲音聽起來偏向自然,沒有像 ChatTTS 一樣從頭到尾一個音,也沒有ElevenLabs 表現出的「呱」的聲音的明顯瑕疵。雖然並不是完美無瑕,部分詞語上也有斷句的問題,但在 80% 的短句中已經有顯著驚艷的表現,對音調、分詞錯落、節奏和斷句能聽出表意,這反映的是語音模型背後的理解能力。在一眾生產力工具向的 AI ChatBot 中,海螺 AI 是唯一一個能提供獨立的語音模型板塊給用戶、讓用戶自定義生成音頻的產品。
一、能與 ElevenLabs 掰手腕的多語言合成能力
國內無論是大廠還是創業公司,在語音模型能力上都會對標 ElevenLabs。ElevenLabs 憑藉其高質量語音合成、多語種能力、個性化語音生成和強大的API支持,成為了當前語音合成領域的領先產品之一。在 T2A-01 模型的能力支持下,海螺 AI 所生成的語音在相似度、錯誤率和聽感評測上均領先於同類產品,能與 ElevenLabs 掰手腕。MiniMax 團隊採用和 Seed-TTS 論文相同的評測集和評測工具來計算海螺語音的字錯率和相似度。結果顯示,海螺語音在中文的字錯率和相似度最好,英文的字錯率、相似度和真實錄音「Human」接近。
根據用戶真實場景,MiniMax 建立了多語種評測集,並對17個語種進行客觀評測。其中,每種語言選取2-10個音色,生成50條以上音頻進行評估。結果顯示,海螺語音相似度整體佔優,綜合能力媲美 ElevenLabs。在中文、粵語、英語、日語、韓語和阿拉伯語等多個語種上,海螺語音的相似度、正確率方面大幅領先。
那麼 T2A-01 的多語種能力究竟如何?先來讓它用囂張小姐的語氣,帶着開心的情緒,以正常速度,用九種語言說出楊冪的經典廣告語:你沒事吧?(1、中文:你沒事兒吧 2、英語:Are you okay? 3、日語:大丈夫ですか?(Daijōbu desu ka?)4、法語:Ça va? 5、德語:Geht es dir gut? 6、西班牙語:¿Estás bien? 7、俄語:Ты в порядке?(Ty v poriadke?)8、韓語:괜찮아요?(Gwaenchanayo?)9、意大利語:Stai bene?)
你還真別說,第一聲出來的時候還真有點像楊冪的聲音。之後的小語種發音清晰,也能從語流語調間感受到開心的情緒。再來看這個視頻,其中的配音語言採用德語,在音色調節效果中選擇了空曠回聲音效,出來的效果完全沒有 AI 味兒,彷彿女政客在國會現場的慷慨陳詞。
二、精準情緒+音色控制的王炸組合
於機器而言,準確地進行情緒表達一直是難點所在。語音模型情感表達的訓練依賴於大量標註數據,但這些數據往往存在偏差,某些情感可能被過度強調,而另一些則被忽視,導致模型在處理這些情感時不夠準確。於 TTS 行業而言,即使模型能夠理解情感,生成的情感表達也可能顯得生硬或不自然,模型可能難以在語音中保持情感的一致性,或者無法模擬真實人類情感的細微變化。
為了讓聲音更加鮮活,情緒表達更加精準,MiniMax 對長達超千萬小時的高質量音頻數據進行加工、訓練,最終實現高音質、情感豐富的聲音效果。先來通過朗讀古詩簡單感受下,所選取內容為:「惟覺時之枕席,失向來之煙霞。世間行樂亦如此,古來萬事東流水。」由於粵語接近古漢語的方言,所以用粵語念詩會更貼近古人念詩時的表現,對情感的考驗也相較於白話文稍上了一個高度,因此輸入的 prompt 為:「惟覺時之枕席,失向來之煙霞。世間行樂亦如此,古來萬事東流水。」
市面上的大部分語音模型可以對這一題穩定輸出,但MiniMax不止於此。最新發佈的海螺語音具備情感理解能力,能夠智能地識別並重現語音中細微的情感差別,用戶既可以讓系統自動檢測情緒,也可以明確指定情緒,從而生成能夠精準捕捉人類深層情感的語音輸出。在指定情緒中,除了中性外,有開心、難過、生氣、害怕、厭惡、驚訝效果可選,自然而逼真。雷峰網雷峰網雷峰網
日常的對話表達,或商業化場景中,情緒往往是多變且富有層次的,這個是過去的語音大模型較難攻克的痛點。但海螺語音實現了這一突破,可以分段控制不同的情緒。例如,同樣是表達老人害怕的情緒,想進一步從聲音中感受到從害怕到難過再到開心的完整情緒變化,海螺AI給出了如下的答案:
從婦人發現怪老頭沖自己喊叫時的緊張、驚慌、害怕,到發現是自己年輕時的堂哥走散落魄至此,此時聲音變低落展現難過,再到重逢時的開心有明顯的音調上揚,海螺 AI 對輸入的文字有精準理解,對輸出的聲音也可以做到層次分明,精細地控制。除了情緒的精準控制外,海螺語音的另一個明顯優勢時預置不同語種共計300+音色供用戶選擇,用戶可按語言、口音、性別和年齡分類篩選。音色多變,不羈、詼諧、慈祥等風格豐富多樣,有聲書、ASMR耳語、新聞播報等場景均可適用。
在平台給定的音色基礎上,用戶也可以根據偏好對低沉/明亮、力量感/柔和、磁性/清脆等細節進行自定義,同時也可以增加類似於空曠回聲、禮堂廣播、電話失真等場景感。
選擇「花甲」奶奶這一音色,也可以通過調試台對語速、聲調、音量進行調節。
將花甲奶奶的聲音設置為語速和聲調降低,情緒輸出為害怕,就能獲得講恐怖故事很有氛圍感的說書聲音。
在87版《紅樓夢》中,林黛玉的角色被成功塑造,這一文學佳作在香港也曾拍過多版。如果在香港引進87版的黛玉,「花謝花飛花滿天,紅消香斷有誰憐」該如何用粵語配音呢?一起來感受一下:該片段中的配音由海螺語音完成,可以切實感受到,海螺語音在情緒和音色控制方面的實力所在,如果將兩者進行結合,可以說,幾乎能隨心所欲地生成想要的語音效果,滿足更多為影視作品引進和配音的潛在需求。
三、面向AGI,堅定多模態
在 AI 公司的多模態模型能力開發順序上,音頻似乎很難排在文字、圖片、視頻能力之前,給行業造成一種「音頻模型相對滯后」印象。但實際上,語音大模型的開發難度和技術門檻都非常高,數據的稀缺性是制約模型能力的關鍵難點,從海量數據中剝離出語音到對多語言、多口音、多情緒的語音進行標註,都需要高昂的成本。因此在多模態公司的布局中,對其開發往往需要在具備一定的技術積累和資源支持后才逐步推進。
近半年的時間以來,國內多家大廠發佈了語音模型。去年7月,阿里開源了一個語音大模型項目 FunAudioLLM,包含了 SenseVoice(語音識別) 和 CosyVoice(語音生成)兩個模型;今年1月,位元組跳動上線了實時語音大模型,並將基於此模型全量上線豆包。App 實時語音通話功能。半年之內,諸多大廠的跟進和成績意味着語音大模型的發展潛力不小。
而在 AI 創業公司中,鮮少有哪家語音能力突出, MiniMax 是一個,甚至其對語音大模型的開發投入時間早於大廠。2023年11月,MiniMax 就發佈了初代語音大模型 abab-speech系列,支持多角色音頻生成、文本角色分類等功能。發佈至今,MiniMax語音模型已經服務閱文起點有聲書、高途教育等近萬家企業用戶與個人開發者。
2024年10月,MiniMax Realtime API 亮相 RTE 2024實時互聯網大會,系國內首個Realtime API。2025開年,MiniMax保持高昂的狀態。在此次發佈語音模型之前,就已經接連發佈了視頻模型S2V-01,並在Github開源了新一代MiniMax-01模型,與DeepSeek共同對傳統Transformer架構與高訓練成本發起挑戰。MiniMax創始人透露,「我們認為這有可能啟發更多長上下文的研究和應用,從而更快促進AI Agent時代的到來。開源了一方面可以逼着我們提高算法創新效率,另一方面也能打造全球技術品牌。」
從文本、視頻,到語音能力的全面更新,只能說,MiniMax和海螺 AI 是會給人帶來驚喜的——這也是對多模態模型的長期投入和持續發力的結果。MiniMax 的主心骨一直都是面向 AGI 投入,而多模態能力就是現階段最明晰的路徑。