最新版本的AI语音合成系统Tacotron 2 让你怀疑自己的耳朵

【旗龙 :2018年1月2日消息】据外媒WCCF Tech 道，谷歌其最新版本的人工智能（AI）语音合成系统Tacotron 2合成的声音几乎与真人发出的声音令人无法区别。其为谷歌第二代语音技术，搭载两个神经络，可以提高音质的输出水平。现在看来语音转文本不是一种新兴技术，Mac用户对它已经存在已经熟悉并习惯了相当长的一段时间。

谷歌自信声称其文本转语音技术优于大多数语音识别技术，能够达到几乎令人无法区别人类声音与语音合成系统Tacotron 2合成的声音的技术高度。 Tacotron 2对于完全相同的单词可以根据语境来发音，预判人类的情感语气。根据标点符的不同而区分识别内容，在读到大写单词的时候加重语气的功能可以与用户更好地互动。

Tacotron 模型取得了 3.82 的平均意见得分（满分5）。近期评估中，Tacotron 2 模型平均意见得分为 4.53，专业录音平均意见得分为 4.58。相较于专业录音水准的 MOS 值 4.58，谷歌的模型取得了 4.53 的 MOS 值。为了验证谷歌的设计选择，并评估使用梅尔谱图取代语言学、持续时间作为 WaveNet 输入的影响。谷歌团队进一步证明了使用一个紧凑的声学中间表征能够明显简化 WaveNet 的架构。

逐步降低系统训练障碍将被谷歌逐渐降低，这就意味着可以训练出更为出色的语音系统。谷歌相关人员已经将研究成果交到IEEE国际声学语音和信处理大会。您是否想亲自体验一下真假难辨的Tacotron 2呢？

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

最新版本的AI语音合成系统Tacotron 2 让你怀疑自己的耳朵

相关推荐