语音可懂度评估(一)——基于清晰度指数的方法

目录

01 语音可懂度

02 清晰度指数

03 语音可懂度指数

04 扩展语音可懂度指数

05 基于清晰度指数评估可懂度的缺点


前面我们介绍了语音质量的评价标准,今天我们关注语音客观评价的另一个重要指标——可懂度(Intelligibility)。语音可懂度的评估大致可以分为基于清晰度指数、基于语言传输指数和基于相干性指数三类,我们今天先介绍第一类。

01 语音可懂度


可懂度是在给定条件下对语音理解能力的一种度量。如果说语音质量关注的是“how”,那么可懂度关注的则是“what”。一般可以通过计算正确识别的单词或音素的数量来量化可懂度。值得注意的是,语音质量和语音可懂度并不是同义的。语音质量好并不意味着语音可懂度高。大多数可懂度的度量都基于以下假设:可懂度取决于每个频带中信 的可听性(Audibility),而可听性又与每个频带的SNR具有很高的相关性,因此客观语音可懂度(Speech Intelligibility, SI)可以写成如下的形式:

其中K为频谱的被划分的频段个数。Wk表示第k个频段的频带重要性函数(Band-Importance Functions,BIF),BIF满足下式:

然后就可以通过函数将客观语音质量的值映射为语音质量得分,这一步有点像PESQ最后的映射。从上面可以看出如何计算每个频段的SNR是评估可懂度的关键,而根据不同计算SNR的方法,学者们提出了不同的清晰度度量方法,下面将对这些进行方法分别介绍。

02 清晰度指数


清晰度指数(Articulation Index,AI)是由贝尔实验室提出的,Fletcher 和Galt通过大量的实验得出,每个频段的发音错误(Articulation Error, AE)并不会影响其他频段,即它们是独立的。在此基础之上,提出清晰度指数可以表示为语音各频率成分对应的清晰度的加权和

BIF是通过大量的实验得到,对于不同的语料BIF有所不同,如下图所示。可以看到,对于任何语料,F2共振峰的权重都高一点。

有了上面的基础之后,我们就可以计算AI了。

Step 1: 计算每个频段的SNR

其中PX(fk)和PN(fk)分别为语音和噪声的第k个频段的1/3倍频程功率谱

Bk表示第k个频段的带宽。通常使用总共18个1/3倍频程的频带,频率范围为150-8000Hz。

Step 2: 将SNR截断并映射到[0, 1]

然后我们就可以通过公式(3)计算清晰度指数了。最后我们通过函数将AI映射到SI

其中P、Q、N是针对不同语料的不同。例如P = 2.3, Q = 0.428, N = 2.729;P = 1, Q = 0.445, N = 4.077分别为句子和词的可懂度预测参数,如下图所示。

03 语音可懂度指数


语音可懂度指数(Speech Intelligibility Index, SII)是由AI发展而来,主要计算不同频段的SNR语音时会考虑到掩蔽效应,其的计算流程如下图所示

下面我们详细介绍计算SII的过程。

Step 1: 计算等效掩蔽谱,对于每个频段计算其自掩蔽谱

其中Sk为第k个频段等效语音频谱等级(Equivalent speech spectrum levels)。等效语音频谱等级定义为在与听者头部中心相对应的点(耳朵之间的中点)处测得的语音频谱等级。

其中Nk为第k个频段噪声的等效频谱等级。接着通过如下的公式计算每个1/3倍频程掩蔽扩展的斜率

其中Fk为1/3倍频带的中心频率,如下图所示

最后,除了第一个频段外的等效掩蔽谱可以表示为

Step 2: 计算等效干扰谱,对每个频段计算等效内部噪声谱

其中Rk为上一图中第k个频段的内部参考噪声频谱,Tk为第k个频段的听觉阈值等级。等效干扰谱为Xk和Zk中的较大者,即

Step 3: 计算语音水平失真系数

其中其中Uk是上一图中正常人声时的标准语音频谱水平。

Step 4: 计算频段有效SNR

将语音水平失真因素也加入进来,有

最后可以通过下式计算SII

04 扩展语音可懂度指数


在SII基础上有人提出了扩展语音可懂度指数(Extend Speech Intelligibility Index, SII),其本质是计算多个语音帧的SII在时间上的平均,即

05 基于清晰度指数评估可懂度的缺点


基于清晰度指数评估可懂度的方法起步较早,因此不可避免地存在一定的缺点:首先是它们仅在稳定掩蔽噪声的情况有效,这是因为它基于语音和掩蔽信 长期频谱的平均计算得到的,因此在环境变换比较剧烈的时候,它就没有那么适用了。其次,不能在包含多个尖锐过滤的语音带或尖锐过滤的噪声的条件下使用。最后。它不适用于涉及非线性运算(例如,语音增强中使用的非线性增益函数)或者存在加性噪声的情况。因此,基于清晰度指数的可懂度评估方法在加性噪声和语音被滤波后的场景比较适用。



 

参考文献:

[1].  Speech Enhancement Theory and Practice

[2].  The Speech Intelligibility Index: What is it and what’s it good forp>

[3].  https://en.wikipedia.org/wiki/Intelligibility_(communication)

[4].  https://blog.csdn.net/liyuanbhu/article/details/42675765

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年4月1日
下一篇 2021年4月1日

相关推荐