Python让AI虚拟主播接入微软Azure语音合成并精准嘴型同步

2022年3月7日上午9:47 • 行业观察

上一篇文字中讲了利用Python实现利用微软Azure无限免费将文本转mp3格式的音频文件并下载到本地。微软Azure TTS的优点不用多说，今天将讲如何利用Python将其接入到虚拟主播中来。

看过专栏其他文章的朋友，一定知道，我们使用的虚拟主播软件为Motionface，其支持一些简单好用的接口。我们先看看Motionface的效果：

我们看到了其要求是需要wav格式的音频来驱动嘴型同步,但是微软Azure语音合成为mp3格式，这时，我们需要将mp3音频文件转换成wav的音频切采样率为11025。

这个转换过程是利用ffmeg，通过python脚本调用实现。

开始python代码吧！

接下来，我们将利用python，将wav音频文件传给motionface即可进行嘴型同步了：

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！