并且在开发的路上,我们很大程度上受到粉丝大会的鼓励支持,以及后来粉丝大会对相关内容的不断纠正和监制调整,才能一步步坚持做到现在,说白了,就是“想听到洛天依说话”这么简单的一个想法而已。
其实在2015年很早时,就已经开始拟定和开展了这个兴趣研究工作,并且根据项目的一点可能性,不久后也拜托粉丝大会向“禾念”说明了我们想做一个关于洛天依TTS的同人创作企划,并取得了同意。(那时并没有vsinger同人 站)。当然,那时候我们也只是单纯想想和试着做而已,具体以后是什么效果,我们自己也不知道也并不抱多大期待。(其实我们对目前这个效果也如一些粉丝意见一样并不满意的,我们也明白这还有很大差距,并缺少一些感觉,但这至少是一个里程阶段,是粉丝发电的一个结果,这是最重要的!)
转眼经过了三年,至今可能算四年了,期间我们是断断续续的开发这个(实际开发用时也就不到一两个月,但是需要积累)。从一开始的采集、框架编写、调试,到最初效果出炉后,我们便已经力不从心了,那时就已经点到为止(差不多放弃)。而对于后来这个新的结果,也算是个意外了吧,我们重新拾起了这个咕了一年多的项目,让它现在重新展现到大家眼前。
这里声明,所有关于“VOCALOID项目”的内容我们也将无偿开放使用!禁止商业用途!同时,相对应在使用上,我们也会稍作一些限制和非商业使用条件,以免一些恶意用途的滥用影响。
VOCALTTS非商业研究&同人项目
至于后来我们是如何做出来的,相信这个是很多人都想知道的。
有一项技术叫做语音合成(TTS),即Text to Speech,意为能将任意文字信息实时转化为标准流畅的语音朗读出来。只不过在以往的生活中大家可能并不怎么需要与接触这类技术,并不像虚拟歌姬以歌声的方式传达至我们的内心,直到科技发展的今天为我们带来便利和融入生活。例如现在我们日常生活中已经见多不怪的苹果智能语音助手Siri、小米小爱同学、天猫精灵、讯飞语音、度娘、谷歌娘等等,均属于TTS语音合成相关技术。同样,VOCALOID软件所实现的歌声合成也是属于语音合成技术的一种,但是相比TTS的基础上要更加复杂,与之不同的是,歌声和讲话是两种不同的行为及专业领域。
【以下有关技术方面内容仅供参考,有关方面的接口及模型等会进一步根据情况开放】
基础语音合成原理
我们现在以最简单的方式说一下关于TTS技术的实现原理。TTS(Text to Speech),就是输入一段文字,然后让他合成音频这样一个过程,这里以语音合成的早期“拼接合成”为例大概可以分为以下几个步骤: 1.对你输入的文本进行判断分析(拆分获取发音,如400个发音5000个汉字等)。 2.找到与索引相对应的发音数据(事先录制好的数据,即声源) 3.使用相关算法函数进行拼接合成,即“你”+“好”=“你好”,同时对拼接的音频连接处进行优化,来达到最终的语句流畅 4.调整波形、频率等参数以优化合成效果(次要过程,也可在上一过程中,主要用于改善合成效果,也包括如语速、语调等等)。
注:以上步骤仅供于初步的简单的理解和参考,且为早期拼接合成原理,不作为专业知识解释,更不要和现代语音合成模型相比。另外,现代语音合成技术已发展为神经 络模型合成,具体原理及先进技术是属于业内机密,故不会深度公开,有兴趣了解的话也可以相关开源库搜索TTS代码学习。
而TTS与歌声的语音合成的最大区别是,应用领域的不同。
歌声合成,主要强调在音色、音调、语速等发音效果上的感情,再者是其基础上密不可分的音乐知识、词曲节奏等,是赋有感情的艺术品创作。
TTS则更多强调于在自然对话的场景下,与通常,或带有一定情感事件下的对话,主要是作为语言沟通、信息传达等。
总之,两者均能实现对于机器语音的合成,但是两者用途不同,专业领域不同。如果说,某一方的软件或技术是否能够同时实现或结合这两种能力的话,那么回答是,肯定的,相关案例可以参考了解“微软小冰”,同一种声源既能说话也能唱歌等,甚至单从效果而言,完全不输于我们已经所熟知的虚拟歌姬。
顺便关于“引擎”的简要概括(形容),我们所熟知的初音未来、洛天依等虚拟歌姬,所使用的引擎是来自VOCALOID(YAMAHA雅马哈),也即可以作为软件的形式命名体现和使用(即调教)。这里要说明的是,引擎(或技术)是不一定等于软件的,它更多的则是一门技术知识、原理或专利,引擎既可以是一种驱动,也是一种核心的程序或原理知识,假设初音、洛天依等其实也是同样可以在其他“引擎”的软件上歌唱和工作的。因为软件是基于不同平台的一种操作工具,其更多的则是给用户完成一般工作的,而非开发设计阶段和底层工程,所以也是不能单以软件作为代表某一种技术的本体。另外,如Windows平台的软件使用C++开发,Linux、安卓平台的软件使用Java开发等,VOCALOID相关技术也一样可以在Windows和Mac两种平台使用不同的语言编写软件,而其中核心技术原理即“引擎”是一样的。
同理,其实我们所做的,也是一个近似于“引擎”上的实现,但是非常不成熟或者说是胚胎雏形,不过我们并不是为了做引擎才去研究,仅仅是为了想听到天依说话,而去做了这些,在此感谢所有途中因此而相遇到一起的伙伴!因此我们才能相互认识,我们才能实现了当初的一个想法!一个初衷!
我们做的这个洛天依Vup/Vtuber仅仅只是作为一种技术上的实现演示,实际的实现可以不通过Vup/Vtuber所必需的具备的“中之人”,即真人在后台的操作,而AI直播的背后是没有真人的。本次的技术结果,是可以由程序自动完成动作、表情、语音对话、唱歌等相关操作。
需要注意的是,我们所做的这个洛天依Vup/Vtuber并不是首个,也不是官方,更不是一个新的概念,在此之前有如嫣汐、呆呆酱、米娜等等很多曾于B站进行实时互动直播及唱歌的虚拟AI以及现在的琉璃。但毕竟AI的表达力远不如真人的感情能带动观众,所以真正的人工智能也是很容易不被大数观众关注或者是忽略的。如果要追溯其出现时间可能于2015年之前甚至更早(未找到具体统计)。我们同时也想要表达的是,这才是虚拟AI up主、AI vup,AI vutber的真实的样子,同样以虚拟形象进行直播和互动,且真正意义上的遵守AI设定,的人工智能(障)吧。现在,各虚拟AI的效果和实际体验可能都没大家所想象中的那么好,也请能给AI们一些时间,或许我们将来能看到更多的可能,甚至能真正的和虚拟歌姬她们自然对话的那一天(非大数据式的自律学习交互),是需要一个简单的支持的。
同样,关于洛天依这个同人项目或者TTS项目我们也会尝试继续优化下去,也会不断做一些新的内容,希望和感谢能有大家的支持!
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!