机器学习中的音频特征:理解Mel频谱图

我们可以使用音频信 的数字表示形式。 欢迎来到信 处理领域! 您可能想知道,我们如何从中提取有用的信息起来像是一团混乱。 这就引出我们的朋友傅里叶,这里是它最熟悉的领域。

傅立叶变换

音频信 由几个单频声波组成。 在一段时间内对信 进行采样时,我们仅捕获得到的幅度。 傅立叶变换是一个数学公式,它使我们可以将信 分解为单个频率和频率幅度。 换句话说,它将信 从时域转换到频域。 结果称为频谱。

这是可能的,因为每个信 都可以分解为一组正弦波和余弦波,它们加起来等于原始信 。 这是一个著名的定理,称为傅立叶定理。

频谱图

快速傅立叶变换是一种功能强大的工具,可让我们分析信 的频率成分,但是如果信 的频率成分随时间变化,该怎么办多数音频信 (例如音乐和语音)就是这种情况。 这些信 称为非周期性信 。 我们需要一种表示这些信 随时间变化的频谱的方法。 您可能会想,“嘿,我们不能通过对信 的多个窗口部分执行FFT来计算多个频谱吗是! 这正是完成的工作,称为短时傅立叶变换。 FFT是在信 的重叠窗口部分上计算的,我们得到了所谓的频谱图。 哇! 需要接受很多东西。这里有很多事情要做。 良好的视觉效果是必须的。

仅用几行代码,我们就创建了一个频谱图。 好。 我们对“频谱图”部分有扎实的了解,但对“MEL”则如何。 他是谁p>

梅尔(Mel)量表

研究表明,人类不会感知线性范围的频率。 我们在检测低频差异方面要胜于高频。 例如,我们可以轻松分辨出500 Hz和1000 Hz之间的差异,但是即使之间的距离相同,我们也很难分辨出10,000 Hz和10,500 Hz之间的差异。

1937年,Stevens,Volkmann和Newmann提出了一个音高单位,以使相等的音高距离听起来与听众相等。 这称为梅尔音阶。 我们对频率执行数学运算,以将其转换为mel标度。

总而言之

如果你像我一样是信 处理新手的话,这里有很多概念需要了解。然而,如果你继续回顾这篇文章中提出的概念(花足够的时间盯着墙角思考它们),它就会开始有意义了!让我们简要回顾一下我们所做的工作。

我们随时间采集了气压样本,以数字方式表示音频信

  1. 我们使用快速傅里叶变换将音频信 从时域映射到频域,并在音频信 的重叠窗口部分执行此操作。
  2. 我们将y轴(频率)转换为对数刻度,将颜色尺寸(幅度)转换为分贝,以形成频谱图。
  3. 我们将y轴(频率)映射到mel刻度上以形成mel频谱图。

听起来很简单,对吧吧,虽然不尽然,但是我希望这篇文章能使你了解音频特征的处理和梅尔频谱图的原理。

deephub 翻译组

文章知识点与官方知识档案匹配,可进一步学习相关知识OpenCV技能树首页概览11268 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年7月22日
下一篇 2020年7月22日

相关推荐