AI合成日语声音已近乎完美，Galgame+深度学习引领配音界新局面？

像是AI绘画、AI写作，你知道有这么些东西，但很少见到他们真正的投入使用。

许多人也就是在口口相传中知晓有这么一回事，似乎发展得还不错的样子。

但AI配音的话，就算你没去特地了解过，也肯定见过营销对他的广泛应用。

他们一般盯着一些抓眼的事情做视频，配上冗长而无意义的文案消耗观众耐心，在最后一刻才揭晓真相。

你肯定和我一样对这种视频印象深刻。

嗯，负面意义的那种。

看上面的图。这个一般就是营销使用的配音源头。

微软旗下的云计算服务厂商Azure提供的【Text to speech】接口，进入站就可以直接在线使用，因为确实方便且好用被众人得知。

中文有感情，有语气停顿。就算是现在估计都还有人以为营销的视频是真人配的，尤其是一些中老年人。

不过日文这块嘛，微软这个接口就挺一般的了，机械感很强，听着较为僵硬。

你要是想自己写点怪东西让日系动漫美少女/美少年念给你听，那可能会有些困难……

毕竟是免费公开的服务，可以理解。

实际上，虽然在线服务没有，但能合成配音的软件还是有的。

比如今年三月份正式发售的，由AHS与Dreamtonics共同开发的次世代语音合成朗读软件【Voicepeak】，其输出的语音已经较为成熟。

只是不能无脑使用，需要大量的后期手动调整。

有人使用它预先提供的测试版来念明日方舟角色的台词……

效果很惊艳，可以去听一听。

固然有一些棒读的意思，但情绪、起伏方面第一时间已经不会再让人想到这居然是AI生成出来的，自然得很。

而距离Voicepeak正式发射只经过了短短半年不到，国内程序员大佬们又整出了AI配音生成的新玩法。

那就是，通过机器学习自己训练！

用机器学习来进行声音合成以前不是没人做，其实现在就有许多的开源框架、开源算法、甚至训练集/模型存在。但问题是不方便定制化。

就算有爱好者想自己生成日系美少女的声音，但奈何条件不够啊。

因为想要自己训练模型实在是困难，只有一些高校、实验室、企业才有足够的会资源去做相关的事情。

机器学习是需要数据集的，需要有大量的样本给程序进行解析。没有数据集什么都无从谈起。

你说一般人去哪弄那么多声音呢？

嘿，国内的点子王想到了。

从Galgame里拿！

Galgame是什么？一般来说，可以理解为拥有和美少女谈恋爱要素的视觉小说。

一部Galgame中会包含画面、音乐、剧本、还有配音……

几十万字甚至上百万字的剧本，随便一个可供攻略的女角色说出来的话就不止几千几万句了。

并且还各种情绪都有？！

还能关掉背景声音，只提取出人声？！

稍微想想就知道，这东西在机器学习领域简直就是天然的素材宝库啊！

就在最近就有人发现了这点，开始着手用Galgame中的女角色的配音作为原始数据来合成语言。

有了第一个就有第二个，并且越来越卷、越来越厉害。

直到现在，已经有人发布的语音合成演示成熟度高到语调、情绪、停顿都很融洽（说怪话简直绝了）完成度基本听不出跟真人的区别。

这股苗头才刚刚起来，未来将走向何方还尚未可知。

可以预见的是，开创二创全新纪元或许不再是空想，随便一想就能想到：同人游戏、独立游戏、视频配音、MMD制作、节目主持等各种场景都能用到这种技术。

就是版权方便可能会有些敏感。

毕竟是直接拿人家的声音来训练的模型。

但只要不涉及到商业领域的话，业余二创和爱好者制作的免费产品用起来应该还是不用担心的。

接下来的一段时间里，就看有没有人实际将其投入到具体项目中使用了。

总之，我期待有更多有趣的人做出有趣的东西来 ——

关注我，带你一起探索互联那人迹罕至的角落！软件、游戏、文字、有趣的人和组织，你想要的东西都在这里~

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！