像是AI绘画、AI写作,你知道有这么些东西,但很少见到他们真正的投入使用。
许多人也就是在口口相传中知晓有这么一回事,似乎发展得还不错的样子。
但AI配音的话,就算你没去特地了解过,也肯定见过营销 对他的广泛应用。
他们一般盯着一些抓眼的事情做视频,配上冗长而无意义的文案消耗观众耐心,在最后一刻才揭晓真相。
你肯定和我一样对这种视频印象深刻。
嗯,负面意义的那种。
看上面的图。这个一般就是营销 使用的配音源头。
微软旗下的云计算服务厂商Azure提供的【Text to speech】接口,进入 站就可以直接在线使用,因为确实方便且好用被众人得知。
中文有感情,有语气停顿。就算是现在估计都还有人以为营销 的视频是真人配的,尤其是一些中老年人。
不过日文这块嘛,微软这个接口就挺一般的了,机械感很强,听着较为僵硬。
你要是想自己写点怪东西让日系动漫美少女/美少年念给你听,那可能会有些困难……
毕竟是免费公开的服务,可以理解。
实际上,虽然在线服务没有,但能合成配音的软件还是有的。
比如今年三月份正式发售的,由AHS与Dreamtonics共同开发的次世代语音合成朗读软件【Voicepeak】,其输出的语音已经较为成熟。
只是不能无脑使用,需要大量的后期手动调整。
有人使用它预先提供的测试版来念明日方舟角色的台词……
效果很惊艳,可以去听一听。
固然有一些棒读的意思,但情绪、起伏方面第一时间已经不会再让人想到这居然是AI生成出来的,自然得很。
而距离Voicepeak正式发射只经过了短短半年不到,国内程序员大佬们又整出了AI配音生成的新玩法。
那就是,通过机器学习自己训练!
用机器学习来进行声音合成以前不是没人做,其实现在就有许多的开源框架、开源算法、甚至训练集/模型存在。但问题是不方便定制化。
就算有爱好者想自己生成日系美少女的声音,但奈何条件不够啊。
因为想要自己训练模型实在是困难,只有一些高校、实验室、企业才有足够的 会资源去做相关的事情。
机器学习是需要数据集的,需要有大量的样本给程序进行解析。没有数据集什么都无从谈起。
你说一般人去哪弄那么多声音呢?
嘿,国内的点子王想到了。
从Galgame里拿!
Galgame是什么?一般来说,可以理解为拥有和美少女谈恋爱要素的视觉小说。
一部Galgame中会包含画面、音乐、剧本、还有配音……
几十万字甚至上百万字的剧本,随便一个可供攻略的女角色说出来的话就不止几千几万句了。
并且还各种情绪都有?!
还能关掉背景声音,只提取出人声?!
稍微想想就知道,这东西在机器学习领域简直就是天然的素材宝库啊!
就在最近就有人发现了这点,开始着手用Galgame中的女角色的配音作为原始数据来合成语言。
有了第一个就有第二个,并且越来越卷、越来越厉害。
直到现在,已经有人发布的语音合成演示成熟度高到语调、情绪、停顿都很融洽(说怪话简直绝了)完成度基本听不出跟真人的区别。
这股苗头才刚刚起来,未来将走向何方还尚未可知。
可以预见的是,开创二创全新纪元或许不再是空想,随便一想就能想到:同人游戏、独立游戏、视频配音、MMD制作、节目主持等各种场景都能用到这种技术。
就是版权方便可能会有些敏感。
毕竟是直接拿人家的声音来训练的模型。
但只要不涉及到商业领域的话,业余二创和爱好者制作的免费产品用起来应该还是不用担心的。
接下来的一段时间里,就看有没有人实际将其投入到具体项目中使用了。
总之,我期待有更多有趣的人做出有趣的东西来 ——
关注我,带你一起探索互联 那人迹罕至的角落! 软件、游戏、文字、有趣的人和组织,你想要的东西都在这里~
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!