【旗龙 :2018年1月2日消息】据外媒WCCF Tech 道,谷歌其最新版本的人工智能(AI)语音合成系统Tacotron 2合成的声音几乎与真人发出的声音令人无法区别。其为谷歌第二代语音技术,搭载两个神经 络,可以提高音质的输出水平。 现在看来语音转文本不是一种新兴技术,Mac用户对它已经存在已经熟悉并习惯了相当长的一段时间。
谷歌自信声称其文本转语音技术优于大多数语音识别技术,能够达到几乎令人无法区别人类声音与语音合成系统Tacotron 2合成的声音的技术高度。 Tacotron 2对于完全相同的单词可以根据语境来发音,预判人类的情感语气。根据标点符 的不同而区分识别内容,在读到大写单词的时候加重语气的功能可以与用户更好地互动。
Tacotron 模型取得了 3.82 的平均意见得分(满分5) 。近期评估中,Tacotron 2 模型平均意见得分为 4.53,专业录音平均意见得分为 4.58。 相较于专业录音水准的 MOS 值 4.58,谷歌的模型取得了 4.53 的 MOS 值。为了验证谷歌的设计选择,并评估使用梅尔谱图取代语言学、持续时间作为 WaveNet 输入的影响。谷歌团队进一步证明了使用一个紧凑的声学中间表征能够明显简化 WaveNet 的架构。
逐步降低系统训练障碍将被谷歌逐渐降低,这就意味着可以训练出更为出色的语音系统。谷歌相关人员已经将研究成果交到IEEE国际声学语音和信 处理大会。 您是否想亲自体验一下真假难辨的Tacotron 2呢?
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!