基于倒频谱的语音识别
20140808
研究背景
音频分析基础理论
1. 音频信 在本质上是非平稳的,即间隔很短的时间(比如10ms)就会发生剧烈的变化,所以不存在像视频中存在的”关键音频帧”.
2. 音频信 具有短时稳定性,因此通常在较短的时间窗口(音频帧)内对采样点进行处理.
3. 音频处理的两种形式:音频帧和音频例子.
表示X=采样时间,Y=采样幅度值的时域信
这里,这段语音被分为很多帧,每帧语音都对应于一个频谱(通过短时FFT计算),频谱表示频率与能量的关系。在实际使用中,频谱图有三种,即线性振幅谱、对数振幅谱、自功率谱(对数振幅谱中各谱线的振幅都作了对数计算,所以其纵坐标的单位是dB(分贝)。这个变换的目的是使那些振幅较低的成分相对高振幅成分得以拉高,以便观察掩盖在低幅噪声中的周期信 )。
在声谱图中表示语音的原因可归结为如下几点:
1. 音素(Phones)的属性可以更好的在这里面观察出来。
2. 通过观察共振峰和它们的转变可以更好的识别声音;
3. 隐马尔科夫模型(Hidden Markov Models)就是隐含地对声谱图进行建模以达到好的识别性能;
4. 可以直观的评估TTS系统(text to speech)的好坏。
倒谱分析(CepstrumAnalysis)
下面是一个语音的频谱图。峰值就表示语音的主要频率成分,我们把这些峰值称为共振峰(formants),而共振峰就是携带了声音的辨识属性(就是个人身份证一样)。所以它特别重要。用它就可以识别不同的声音。
原始的频谱由两部分组成:包络和频谱的细节,分别对应频谱的低频和高频部分。这里用到的是对数频谱,所以单位是dB。现在将这两部分分离开就可以得到包络了。在给定log X[k]的基础上,求得log H[k] 和 log E[k]以满足log X[k] = log H[k] + log E[k]就是对频谱做FFT。在频谱上做傅里叶变换就相当于逆傅里叶变换Inverse FFT (IFFT)。
这个过程实际就是一个同态信 处理。它的目的是将非线性问题转化为线性问题的处理方法。对应上面就是原来的语音信 实际上是一个卷性信 (声道相当于一个线性时不变系统,声音的产生可以理解为一个激励通过这个系统),第一步通过卷积将其变成了乘性信 (时域的卷积相当于频域的乘积)。第二步通过取对数将乘性信 转化为加性信 ,第三步进行逆变换,使其恢复为卷性信 。这时候,虽然前后均是时域序列,但它们所处的离散时域显然不同,所以后者称为倒谱频域。
Mel频率分析(Mel-FrequencyAnalysis)
到这里我们可以得到语音的频谱包络(连接所有共振峰值点的平滑曲线)了。但是,对于人类听觉感知的实验表明,人类听觉的感知只聚焦在某些特定的区域,而不是整个频谱包络。
而Mel频率分析就是基于人类听觉感知实验的。实验观测发现人耳就像一个滤波器组一样,它只关注某些特定的频率分量(人的听觉对频率是有选择性的)。也就说,它只让某些频率的信 通过,而压根就直接无视它不想感知的某些频率信 。但是这些滤波器在频率坐标轴上却不是统一分布的,在低频区域有很多的滤波器,他们分布比较密集,但在高频区域,滤波器的数目就变得比较少,分布很稀疏。
梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC)考虑到了人类的听觉特征,先将线性频谱映射到基于听觉感知的Mel非线性频谱中,然后转换到倒谱上。
将普通频率转化到Mel频率的公式是:
在Mel频谱上面获得的倒谱系数h[k]就称为Mel频率倒谱系数,简称MFCC。
MFCC特征提取过程
1.预加重
预加重处理其实是将语音信 通过一个高通滤波器:
后,W(n)形式如下:
式中x(n)为输入的语音信 ,N表示傅里叶变换的点数。
5. 三角带通滤波器
将能量谱通过一组Mel尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,…,M。M通常取22-26。各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽,如图所示:
三角带通滤波器有两个主要目的:
对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰。(因此一段语音的音调或音高,是不会呈现在 MFCC参数内,换句话说,以 MFCC为特征的语音辨识系统,并不会受到输入语音的音调不同而有所影响)此外,还可以降低运算量。
6.计算每个滤波器组输出的对数能量为:
将上述的对数能量带入离散余弦变换,求出L阶的Mel-scale Cepstrum参数。L阶指MFCC系数阶数,通常取12-16。这里M是三角滤波器个数。
8.对数能量
此外,一帧的音量(即能量),也是语音的重要特征,而且非常容易计算。因此,通常再加上一帧的对数能量(定义:一帧内信 的平方和,再取以10为底的对数值,再乘以10)使得每一帧基本的语音特征就多了一维,包括一个对数能量和剩下的倒频谱参数。
注:若要加入其它语音特征以测试识别率,也可以在此阶段加入,这些常用的其它语音特征包含音高、过零率以及共振峰等。
9.动态差分参数的提取(包括一阶差分和二阶差分)
标准的倒谱参数MFCC只反映了语音参数的静态特性,语音的动态特性可以用这些静态特征的差分谱来描述。实验证明:把动、静态特征结合起来才能有效提高系统的识别性能。差分参数的计算可以采用下面的公式:
N通常取2.
特征匹配和查询(未完待续)
Reference:
0. 梅尔频率倒谱系数
1. MelFrequency Cepstral Coefficient (MFCC) tutorial
2. 音频特征提取、分析与音频音乐检索
3. Fundamentalsof Spectrum Analysis
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!