1.搜狗输入法首创的AI变声功能,是基于搜狗近期在语音表征学习、迁移学习技术取得的重大突破,首次将该变声能力落实到消费级产品中。2.谷歌科学家曾研究过语音变声,但只停留在论文这个层面。现在搜狗语音将前沿技术实用化,运用到日活跃达4.43亿人次的搜狗手机输入法中,其应用前景相当广阔。
不用再追忆、不用再幻想,只需要在手机输入法中轻轻一点,AI就能将我们秒变星爷,与心中的那个她演绎浪漫。
近日,搜狗输入法上线了一个AI新功能“变声”,用户只要在语音输入中选择变声功能,输入想说的话,再选择一个喜爱的角色,就能把个人声音瞬间“变成”该角色的声音,模拟声音的逼真度相当高,几乎可以做到“以假乱真”。
这看似简单的过程,技术实现却一点不简单,为语音变声(Voice conversion)领域最高等级难度,昔日谷歌纯研究的领域,这次让搜狗落地干成了!
1/语音表征学习、风格迁移技术双突破
变声技术早已有之,相关软件 上比比皆是,譬如豆豆变声器、搞怪变声大师、小博士语音机器人、魔法变声器、百变语音等。
那搜狗输入法的AI变声与普通变色软件有何区别呢?AI变声集语音表征学习技术、风格迁移技术之大成,不再是冰冷的、千篇一律的角色声音。
用户通过语音输入聊天内容,搜狗语音的编码器自动将内容分为两部分:一部分为聊天内容资料,AI对聊天内容资料进行声纹特征编码,以提取用户的音色;另外一部分为韵律资料,也就是用户说话的节奏、流露的情感、包含的语气,AI通过对音频特征的压缩编码及特征抽取,学习用户的说话风格。
与此同时,用户选择一个角色,AI自动激活说话人编码器,调出目标说话人的音色并进行替换,之后AI通过Attention和Decoder模块进行加权特征编码,并利用WaveRNN神经 络声码器恢复成波形,最终得到带有角色音色的音频。
简而言之,搜狗语音使用表征学习获得说话人语音的音色特征和内容细节,通过风格迁移技术获得说话人语音的风格特征,再将说话人的音色特征替换为角色的音色特征,最后基于搜狗语音技术,使用内容(源端)、韵律(源端)、音色(目标端)三类特征结合为最终变声音频。
使用普通变色软件得到的是不稳定音色和效果的机器声音,而使用搜狗手机输入法的AI变声得到的是充满情感、且高度还原的音色,因此充盈着真实感。
2/AI变声难在哪儿
目前,市场常见的是语音合成技术,该技术可实现机器播 用户输入的文本,是一种文本到语音的技术。
而与语音合成相比,语音变声(Voice conversion)是一种创新,为语音到语音的新技术,可实现将用户输入语音转变为新音色语音。
德国哲学家莱布尼茨说过:“世上没有两片完全相同的树叶。”
物种具有多样性,人也不例外,这世上就没有完全一模一样的人,哪怕是双胞胎说话的节奏、情感、语气都不会完全一致。
将千人千声处理为同一种声音不难,想保留说话人的节奏、情感、语气就难了,可变因素太多、不确定因素太多。
譬如同一个人,走路时说话和在跑步机上说话,说话节奏有区别;正常说话和失恋时说话,情感不一样;跟朋友说话和跟老板说话,语气大不同。难上加难的是,变声后的声音与原始音色高度相似,仿佛一个活生生的真人。
目前,搜狗做到的是语音变声领域最难的技术,通过在语音表征学习、迁移学习技术取得的重大突破,可以把任意人音色变声成特定人音色(Any-to-One),从实用程度到技术难度都是最高等级。同时,搜狗语音也将该变声能力,落实到日活跃达4.43亿人次的的搜狗手机输入法中。
谷歌《从声纹识别到多重声线语音合成的迁移学习》这篇论文阐述了语音变声的解决方案,不过只停留在论文研究阶段,并未进行产品应用落地。
再一次,踏着“巨人的肩膀”搜狗为语音领域的发展,又开创了新的高度。
这需要相当多的积累才能创新与领先,为此搜狗申请了一种“语音转化方法及装置”专利(申请 :CN201711206137.2)。
该方法包括确定文本特征数据、目标音频的风格特征以及源音频数据的音色特征;风格特征包括时长韵律特征、基频特征、能量特征中的至少一种;根据文本特征数据、目标音频的风格特征以及源音频数据的音色特征进行语音转化,得到转化语音数据;转化语音数据具有源音频数据的音色以及目标音频的风格特征。
该技术可以使得语音变声具有源音频数据的音色以及目标音频的风格特征,提高了情感表现力,更加自然,有效提高语音变声的质量。
事实上,搜狗在AI领域一直走在行业的前列。
搜狗CEO王小川曾公开表示:“搜狗对语言为核心的人工智能领域持续投入,不断将技术成果落地到搜索、输入法和智能硬件产品中,在为用户创造更好体验的同时也增强了产品的竞争力,相信未来这将助力公司取得更大的突破。”
搜狗手机输入法每天峰值达6亿次语音识别请求,位列行业第一,为公司改进、完善、蜕变AI技术提供了坚实的基础,这个得天独厚的优势令其在语音领域处于领跑地位。
3/应用前景广阔
现在的表情包都是图片,是不是都玩腻了,不妨通过搜狗输入法制作一批“表情语音包”,玩出新花样。
与男友聊天时,发送用志玲姐姐撒娇声音制作的“请问谁掉了一只小可爱”,热血沸腾的男友回复用星爷戏谑的声音制作的“小姐姐,我来也”,是不是别有一番情趣。
科学研究表明,人类对图片的感官更为直接,但对声音的记忆要更强,斗图与撩语音的组合玩法,乐趣更大、回味更久。
而在行业领域,AI变声也可大展拳脚。
譬如少儿在线教育,行业普遍存在小朋友注意力无法长期集中的问题,倘若借助小朋友喜欢的小猪佩奇、海绵宝宝、蜡笔小新等角色声音,对激发学习欲望、聚焦注意力都大有裨益。
再譬如电商产品广告,一堆干巴巴的视频介绍产品如何好、产品如何妙,何不添加志玲姐姐的酥语音频,无形中加大诱导成分,增加用户对产品的好感。
举一反三,你能联想到哪些AI变声应用场景呢?
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!