洛天依同人语音合成VOCALTTS发电项目的一切

并且在开发的路上，我们很大程度上受到粉丝大会的鼓励支持，以及后来粉丝大会对相关内容的不断纠正和监制调整，才能一步步坚持做到现在，说白了，就是“想听到洛天依说话”这么简单的一个想法而已。

其实在2015年很早时，就已经开始拟定和开展了这个兴趣研究工作，并且根据项目的一点可能性，不久后也拜托粉丝大会向“禾念”说明了我们想做一个关于洛天依TTS的同人创作企划，并取得了同意。（那时并没有vsinger同人站）。当然，那时候我们也只是单纯想想和试着做而已，具体以后是什么效果，我们自己也不知道也并不抱多大期待。（其实我们对目前这个效果也如一些粉丝意见一样并不满意的，我们也明白这还有很大差距，并缺少一些感觉，但这至少是一个里程阶段，是粉丝发电的一个结果，这是最重要的！）

转眼经过了三年，至今可能算四年了，期间我们是断断续续的开发这个（实际开发用时也就不到一两个月，但是需要积累）。从一开始的采集、框架编写、调试，到最初效果出炉后，我们便已经力不从心了，那时就已经点到为止（差不多放弃）。而对于后来这个新的结果，也算是个意外了吧，我们重新拾起了这个咕了一年多的项目，让它现在重新展现到大家眼前。

这里声明，所有关于“VOCALOID项目”的内容我们也将无偿开放使用！禁止商业用途！同时，相对应在使用上，我们也会稍作一些限制和非商业使用条件，以免一些恶意用途的滥用影响。

VOCALTTS非商业研究&同人项目

至于后来我们是如何做出来的，相信这个是很多人都想知道的。

有一项技术叫做语音合成（TTS），即Text to Speech，意为能将任意文字信息实时转化为标准流畅的语音朗读出来。只不过在以往的生活中大家可能并不怎么需要与接触这类技术，并不像虚拟歌姬以歌声的方式传达至我们的内心，直到科技发展的今天为我们带来便利和融入生活。例如现在我们日常生活中已经见多不怪的苹果智能语音助手Siri、小米小爱同学、天猫精灵、讯飞语音、度娘、谷歌娘等等，均属于TTS语音合成相关技术。同样，VOCALOID软件所实现的歌声合成也是属于语音合成技术的一种，但是相比TTS的基础上要更加复杂，与之不同的是，歌声和讲话是两种不同的行为及专业领域。

【以下有关技术方面内容仅供参考，有关方面的接口及模型等会进一步根据情况开放】

基础语音合成原理

我们现在以最简单的方式说一下关于TTS技术的实现原理。TTS（Text to Speech），就是输入一段文字，然后让他合成音频这样一个过程，这里以语音合成的早期“拼接合成”为例大概可以分为以下几个步骤： 1.对你输入的文本进行判断分析（拆分获取发音，如400个发音5000个汉字等）。 2.找到与索引相对应的发音数据（事先录制好的数据，即声源） 3.使用相关算法函数进行拼接合成，即“你”+“好”=“你好”，同时对拼接的音频连接处进行优化，来达到最终的语句流畅 4.调整波形、频率等参数以优化合成效果（次要过程，也可在上一过程中，主要用于改善合成效果，也包括如语速、语调等等）。

注：以上步骤仅供于初步的简单的理解和参考，且为早期拼接合成原理，不作为专业知识解释，更不要和现代语音合成模型相比。另外，现代语音合成技术已发展为神经络模型合成，具体原理及先进技术是属于业内机密，故不会深度公开，有兴趣了解的话也可以相关开源库搜索TTS代码学习。

而TTS与歌声的语音合成的最大区别是，应用领域的不同。

歌声合成，主要强调在音色、音调、语速等发音效果上的感情，再者是其基础上密不可分的音乐知识、词曲节奏等，是赋有感情的艺术品创作。

TTS则更多强调于在自然对话的场景下，与通常，或带有一定情感事件下的对话，主要是作为语言沟通、信息传达等。

总之，两者均能实现对于机器语音的合成，但是两者用途不同，专业领域不同。如果说，某一方的软件或技术是否能够同时实现或结合这两种能力的话，那么回答是，肯定的，相关案例可以参考了解“微软小冰”，同一种声源既能说话也能唱歌等，甚至单从效果而言，完全不输于我们已经所熟知的虚拟歌姬。

顺便关于“引擎”的简要概括（形容），我们所熟知的初音未来、洛天依等虚拟歌姬，所使用的引擎是来自VOCALOID（YAMAHA雅马哈），也即可以作为软件的形式命名体现和使用（即调教）。这里要说明的是，引擎（或技术）是不一定等于软件的，它更多的则是一门技术知识、原理或专利，引擎既可以是一种驱动，也是一种核心的程序或原理知识，假设初音、洛天依等其实也是同样可以在其他“引擎”的软件上歌唱和工作的。因为软件是基于不同平台的一种操作工具，其更多的则是给用户完成一般工作的，而非开发设计阶段和底层工程，所以也是不能单以软件作为代表某一种技术的本体。另外，如Windows平台的软件使用C++开发，Linux、安卓平台的软件使用Java开发等，VOCALOID相关技术也一样可以在Windows和Mac两种平台使用不同的语言编写软件，而其中核心技术原理即“引擎”是一样的。

同理，其实我们所做的，也是一个近似于“引擎”上的实现，但是非常不成熟或者说是胚胎雏形，不过我们并不是为了做引擎才去研究，仅仅是为了想听到天依说话，而去做了这些，在此感谢所有途中因此而相遇到一起的伙伴！因此我们才能相互认识，我们才能实现了当初的一个想法！一个初衷！

我们做的这个洛天依Vup/Vtuber仅仅只是作为一种技术上的实现演示，实际的实现可以不通过Vup/Vtuber所必需的具备的“中之人”，即真人在后台的操作，而AI直播的背后是没有真人的。本次的技术结果，是可以由程序自动完成动作、表情、语音对话、唱歌等相关操作。

需要注意的是，我们所做的这个洛天依Vup/Vtuber并不是首个，也不是官方，更不是一个新的概念，在此之前有如嫣汐、呆呆酱、米娜等等很多曾于B站进行实时互动直播及唱歌的虚拟AI以及现在的琉璃。但毕竟AI的表达力远不如真人的感情能带动观众，所以真正的人工智能也是很容易不被大数观众关注或者是忽略的。如果要追溯其出现时间可能于2015年之前甚至更早（未找到具体统计）。我们同时也想要表达的是，这才是虚拟AI up主、AI vup，AI vutber的真实的样子，同样以虚拟形象进行直播和互动，且真正意义上的遵守AI设定，的人工智能(障)吧。现在，各虚拟AI的效果和实际体验可能都没大家所想象中的那么好，也请能给AI们一些时间，或许我们将来能看到更多的可能，甚至能真正的和虚拟歌姬她们自然对话的那一天（非大数据式的自律学习交互），是需要一个简单的支持的。

同样，关于洛天依这个同人项目或者TTS项目我们也会尝试继续优化下去，也会不断做一些新的内容，希望和感谢能有大家的支持！

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

洛天依同人语音合成VOCALTTS发电项目的一切

相关推荐