智言智语

编者按: 智显未来，洞见新知。中科院之声与中国科学院自动化研究所联合开设“智言智语”科普专栏，为你介绍人工智能相关知识与故事，从最新成果到背后趣闻，带你徜徉AI空间，看人工智能如何唤醒万物，让世界变得更美好。

语音合成（Text to speech，TTS）是一种将文字自动转换为语音信的技术，涉及声学、语言学、自然语言理解、信处理、模式识别等多个学科，是信息处理领域的一门前沿技术。

在早期，“语音合成”是指用机器产生人工言语的技术。

图1 语音机器Paget

随着电子技术的发展，人们开始使用计算机、数字滤波器及各种电于设备进行语音合成的研究。

G.Fant在1960年所著 Acoustic Theory of Speech Production 一书中，系统地阐述了言语产生的声学理论，从而使语音合成技术的发展迈出了关键的一大步，随之而来的是大批的基于该理论之上的串联或并联共振峰合成器的诞生。

从八十年代末，语音合成技术又有了很大的发展，特别是基音同步叠加方法（Moulines and Charpentier, 1990）的提出，使基于时域波形拼接方法合成的语音自然度大大提高。

20世纪末，统计参数语音合成系统已经成为了新的主流算法，尤其以基于隐马尔可夫的语音合成最为成功。其可以在不需人工干预的情况下，高效自动的搭建合成系统，由于统计的缘故，对发音人和发音风格的依赖较小，合成语音的语音风格和音色容易人为控制，并且合成系统的规模没有波形拼接的那么大。

图2 基于统计参数语音合成系统

近年来，一些学者致力于端到端的语音合成模型的建模，并取得了性能上的巨大提升。2016年，谷歌Deepmind研究团队提出了基于深度学习的WavetNet语音生成模型。

图3 基于深度学习的WavetNet语音生成模型

该模型可以直接对原始语音数据进行建模，避免了声码器对语音进行参数化时导致的音质损失，在语音合成和语音生成任务中效果非常好。基于此，端到端语音合成模型不断迅速发展，在某些数据集上达到了媲美人类说话的水平。

随着计算机硬件水平的不断提高和机器学习技术的蓬勃发展，语音合成技术逐渐从最初的基于语音学规则的参数合成，发展成基于大语料库的拼接合成和基于统计参数的语音合成，合成语音的可懂度和自然度也取得了明显提升，在很多场景都取得了成功的应用，例如语音播系统、有声读物、地图导航、信息查询系统等。

可以说语音合成技术正在悄然改变我们的生活，甚至将来会成为人们生活中不可或缺的一部分。

图4 语音合成应用场景

参考文献：

1. H. Zen, K. Tokuda, and A. Black, “Statistical parametric speech synthesis,” Speech Communication, vol. 51, no. 11, pp. 1039–1064, Nov. 2009.

2. J Shen, R Pang, R J Weiss, et al, “Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions,” in Proceedings ICASSP . IEEE, 2018, pp. 373–376.

3. Oord A, Dieleman S, Zen H, et al. Wavenet: A generative model for raw audio[J]. arXiv preprint arXiv:1609.03499, 2016.

4. Wang T, Tao J, Fu R, et al. Bi-level Speaker Supervision for One-shot Speech Synthesis[J]. Proc. Interspeech 2020, 2020: 3989-3993.

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

相关推荐