Google 云端人工智能提供多元机器学习服务,先前开发出云端视觉 API、云端影音智慧 API、和云端语音辨识等,让企业用户能依自身需求的量身订制大规模深度学习模型系统的平台,以现代机器学习服务为解决方案,Google 本周于 官方部落格 宣布推出最新文字转语音 API,结合 WaveNet,支援 12 种语言并可转换为 32 种自然语言,将文字转化成为真实的语音,有效帮助物联网设备语音助理的开发,同时公布新一代的 WaveNet 模型可以制作出更自然的语音讯息。
先前许多 Google 产品,Google Assistant、Google 搜寻、Google 地图,都内建了高品质的 Text-to-Speech 服务,可以产生如人声般自然的发音,Google 在收到许多开发者的意见,决定将 Text-to-Speech 的服务结合到他们的应用程式中,因此将这项 Cloud Text-to-Speech 技术加入 Google 云端平台中。
使用者可以将 Cloud Text-to-Speech 服务运用在不同的情境,举例来说,为电话语音服务中心提供语音回应系统,并启用即时自然语言对话功能与物联网设备,如电视、汽车、机器人等进行对话,也 可将文字格式的媒体内容 (如新闻文章、书籍) 转为口语形式 (如 Podcast、有声书),即使是复杂的文字内容,例如姓名、日期、时间、地址等,Cloud Text-to-Speech 服务也可以发出准确道地的发音,使用者也可以自己调整音调、语速和音量。
另外,Google 也升级 WaveNet 模型,新版所生成的原始音频波形比原本的模型快了 1,000 倍,而且只需 50 毫秒即可生成一秒钟的语音讯息,这个新模型不仅更快速而且具有高保真度,且每秒能创造出 24,000 个音频波形的样本。为了制作出更好、更拟真的音质,我们也将每个样本的分辨率从 8 位元提高到 16 位元。
新的 WaveNet 模型可以制作出更自然的语音讯息。根据 Google 所公布数据在测试过程中,使用者在 1 到 5 级的平均意见分数,给予新版美式英文 WaveNet 语音 4.1 的高分,其中有超过 20% 的人认为比标准的人声更好,而超过 70% 的人肯定它能降低人类语言的隔阂。由于 WaveNet 音讯仅需较少录制音频,就能制作出高音质模型,因此在未来几个月内,将持续改善 WaveNet 音讯的多样性与品质提供给云端客户使用。