日前,由51CTO主办、以“驱动?创新?数智”为主题的AISummit全球人工智能技术大会2022线上活动圆满落幕。该活动聚焦智能语音、计算机视觉、机器学习等前沿技术领域,从技术现状、研究发现、未来趋势以及前沿科技落地实践等诸多方向入手展开深度探讨。
其中在“智能语音的应用与探索”的主题分论坛中,作为分享嘉宾之一的字节跳动 AI Lab语音识别算法研究员张骏在“字节语音识别技术在飞书中的应用”的演讲中表示,如今在办公场景中语音识别技术的应用越发普及,从办公邮件到办公语音助手,从即时通讯中的语音输入到实时字幕&会后转写,语音识别技术的普及除了带来方便外,也产生了许多技术难点。为了更好提升会议的智能化程度以及效率,火山语音为克服语音识别任务、下游任务及会议等方向的挑战,进行了诸多端到端语音识别系统的算法升级与创新,效果明显。
盘一盘语音识别技术
在办公场景中的创新发展
伴随大众对语音助手和智能音箱的接受程度提高,业界首次尝试将语音助手和办公场景结合,随之进入语音助手阶段。“这个时期,语音助手一方面可以充当私人助理,查日程定会议无所不能,更重要的是可以完成与会议设备简化链接的工作,通过语音指令来替代屏幕点击,提升操作效率。目前,我们正处于第三阶段,即语音字幕阶段。”他说。
谈及语音字幕阶段,张骏认为,两种类型的具体应用场景是普遍存在的:一种是会议进行中将语音实时转为文字,不仅可以实时查看原语言的字幕,也可以实时查看翻译后的字幕;另一种是会议结束之后通过语音转写出会议纪要,以此降低会后文字整理难度。“其实无论是语音输入还是语音助手,抑或是现在流行的语音字幕,归根结底都是以提升办公效率为目标。火山语音团队也正是基于此将更多精力投入到飞书会议中,希望通过更具优势的语音识别技术努力优化‘千言转文字,一字胜千言’的效果。”
“千言转文字,一字胜千言”
背后的种种挑战
目前普遍认同一点,最高效的信息传输途径是将表达信息的说话和接收信息的阅读结合在一起,但在自然状态下,这本是不可能发生的,但飞书妙记通过与语音技术相结合,却让它成为可能,尽管在实践过程中也要面临不少挑战。
一类挑战是语音识别本身自带的,即在人机交互过程中,尽管之前用户已在大脑中完全构思好自己想要表达的内容,但在会议中却还是会出现很多口语现象,例如自我修正以及语序颠倒等,面对边想边说的即兴情况,识别的难度会进一步加大;此外在日常会议中频繁出现的中英文混合说以及同为英语却不同口音的识别,也是显著难点之一。
另一类挑战则是下游任务带来的,例如翻译以及文本摘要等,识别的效果会直接影响到下游任务的效果,为此火山语音面对这些挑战,核心思路是采用端到端语音识别技术,在办公场景中发挥其优势。
应对挑战
端到端的语音识别技术了解多少?
谈及端到端识别技术,我们了解到端到端模型其实是从音频、特征到字直接建模,将传统的Hybrid系统中的声学模型、发音词典、语言模型等系列子模型进行整合,由一个端到端模型直接输出结果。这种模型避免了人工设计翻译词典改为模型自动学习,能够大幅度提高口音识别的效果;其他中间环节的人工假设也减少了很多,例如对于犹豫、自我修正、语序颠倒等口语现象的表达,会有更好的建模能力,也正好解决了上述飞书会议的难点。
基于此,张骏在分享中具体介绍了两个端到端的技术解决方案,一个是目前业界主流的RNN-Transducer方案,也是如今火山语音线上的主力模型;另一个是火山语音自主研发的CIF,目前已经在部分场景上线并展现出了极大潜力,值得提及的一点,这种端到端模型让更加复杂的建模方式成为可能。
其实早在2018年,火山语音团队就开始投入到端到端方案的研发,当时共有几种具体思路:第一种主要是基于CTC改进,得出了Recurrent Neural Aligner,也就是RNA方案;第二种则是RNN-Transducer,由Encoder、Predictor、joint三个模块组成,其中由Encoder建模声学信息,Predictor建模语言信息,joint将两类信息进行整合,但当时RNN-T还处于发展初期,依旧有不少问题待解决;第三种是Attention-based encoder decoder,很适合非流式任务,而且已在多个任务中有非常好的表现。
但最终经过多重对比分析,团队选择了RNN-T方案。原因在于,一方面相比于RNA方案,RNN-T方案可以更加明确显示建模的语言信息;另一方面,相比Attention-based模型,流式效果更加自然,无需使用Trunk wise方法,延迟可降更低。但RNN-T方案依然还有很多问题亟待解决,其中最突出的就是RNN-T独特设计带来的复杂度增加。“具体来说,就是在训练的时候显存爆增以及在解码时的效率问题。我们在落地Transducer的时候,当时的GPU显存只有16G。”张骏提及到。
对于RNN-T方案的进一步优化,火山语音团队首先关注到Joint,但Joint占用显存比较高,所以借鉴了NNLM训练的思路,将Token进行分组,用多个小规模的、低质全连接模块来降低显存;其次是仔细观察了Transducer的loss计算公式,实践证明不需要得到每一个TU的全概率,显存就可以从BTUV下降到BTU2;最后也尝试了更高的模型采样率,节省Encoder输出的帧数,进一步降低Joint和loss计算的显存。
通过这些优化动作,不仅可以实现Transducer模型的正常训练,还可以实现数十万小时的数据一周内进行一次完整的模型训练,从训练和解码两个角度优化之后,Transducer就可以成为实际业务生产的主力模型了。无论是流式还是非流式,在RNN-T初版模型上线之时,就可以做到优于Hybrid系统5%到10%。伴随对RNN-T模型的不断探索,CER也在日渐下降。
另外关于火山语音自主研发的端到端语音识别系统CIF,张骏表示其高效连接了Encoder和Decoder。Encoder逐帧进行特征处理,生成声学的表征,CIF对这个声学的表征进行整合,再发放出Lable级别的声学Embedding Ci,最后Decoder再根据这个Embedding Ci进行解码。与此同时,Lable级别的Embedding Ci也为其他任务提供了很好的扩展性,例如日常在AI算法中与热词的结合,以及与语音情感的其他任务结合,能够实现更加自然且细粒度的语音情感识别任务。
如果将几种端到端模型进行对比,可以发现CIF与Attention-Based model,都是软对齐,但CIF的整合发放机制使之更加自然适用于流式任务,且复杂度也有所降低,解码效率相比于RNN-T也有很大优势。
在中文公开数据集上测试了CIF的效果之后,其结果表现也非常有竞争力,例如单音节的普通话,声学边界比较清晰的,就更能发挥CIF的能力。在英文公开数据集Librispeech上测试CIF的效果,在test-clean子集上也达到了SOTA的效果。
张骏补充道:“公开数据集上收获比较好的效果之后,我们也在内部数据集上进行了测试。结果是CER相对于Transducer下降10%左右,RTF也有明显收益,从0.165下降到0.1,目前已经在飞书的部分场景中上线。”在结合上下文的流式语音识别的探索中,火山语音在流式识别中将对话的历史信息引入,提高识别准确率,这个信息引入在Hybrid系统中很难办到。
“我们团队在两年多的优化过程中发现,会议场景与端到端语音识别的前沿科技有非常高的契合度,未来我们会继续将更多更优秀的语音技术应用到飞书应用中,通过前沿AI技术来真正提高办公效率。”张骏说。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!