大家好,我是写代码的篮球球痴,最近一年一直从事音频相关的工作,今天刚好看到卓老师的一篇和声音相关的文章,分享给大家。
??另外,日本耳科会 的一篇文章提出:声带肌截面积变化、声带肌纤维数的变化、肌纤维类型的变化、脂褐质沉积率四个方面是声带老化的重要指标。
??通过这些文献的查阅,我认为,人的声音会随着年龄的增加而有一定的变化,而如何对其进行测量,并找到其中的关联性,则是我的研究重点。
1.2.2 谐波的研究概述
??“谐波”在许多有关声音文章中都被作为了一个关键数据去看待,因为“谐波”确实是与我们平时所说的“音色”是分不开的。
??张雪源在其研究中提到,人在听到一个具有谐波结构的声音时,不会依次感知到每一个单一泛音的频率,而是将信 整体感知为基频频率,而将泛音的个数、能量大小、泛音能量衰减速率等感知为音色 。黄天乾等人通过分析钢琴比较特殊的七次谐波、九次谐波来研究其音质5;张雪源则分析得出:小提琴因其泛音多且能量衰减慢、黑管因其泛音少而能量衰减快,所以前者声音明亮而后者较为低沉(张雪源)4;杨婧基于谐波的特征对于不同乐器进行音色特征提取6……这些都反应了谐波作为一个声音特征的重要地位。所以,在对声音进行定量分析的过程中,谐波的研究有其重要的意义。
1.3 研究意义
??在除了纯粹的科学探究以外,本实验还可能为其它切实的领域提供帮助:
??1. 在此基础上进一步了解声音衰老的机制,帮助提出修复方法
??2. 进一步扩大数据,可以提取特定年龄的特定声音特征,可用于身份识别等领域。
1.4 创新点
??本人认为,该研究的创新点主要有以下两点:
??1. 通过对人的声音的谐波分析,在前人定性声带衰老的基础上,为定量研究人的声带衰老提供可能。
??2. 通过对频谱特征的提取让声音在数据层面上与年龄相关联,并辅助其推测。
02 原?理
3.3.1 基频数据录入方式
??录入基频数据从三方面着手:
??1. 假设其为基频,是否能寻找到其对应倍频
??2. 是否落在歌曲中该音的范围内(“忘”:392Hz-415Hz,“宵”:440-460Hz)
??3. 以上二者任意答案为否的备选峰值直接排除,若仍有多选项,取其y值明显更高的。
??若并不存在“明显更大”,则改组数据不参与分析计算,仅作参考。
3.3.2 倍频数据录入方式
??倍频数据的录入都是基于一个已经确定的基频之上的,要同时用到“set harmonic marker”、“show 5 highest points”两个sigview的自带功能。第一个是可以选定一个频率以后自动显示出它所有理论倍频的所在位置。“show 5 highest points”同字面意思,会显示出你框定范围内的五个最高点并直接读出此点坐标。
??左下图的情况(红圈为理论倍频,蓝色为实际峰值)是容易解决的,直接将理论倍频往最近最高的峰值靠拢即可,但如果遇到右下图这种情况,又该如何不远处是最高峰,右侧更近一点的地方是次高峰,那么取峰值更大的还是取更近的操作一下就不难发现,取最高峰非常好操作,答案也唯一。反之,如果把“取更近的”作为规则,那么在遇到图5情况时,就得不到答案了。
??故而,在所有倍频数据的采集过程当中,我都是直接取了候选名单中的最高峰。这样子完全地杜绝了采集标准摇摆不定带来的问题,但这样做同时也可能在实验中留下问题——凭什么最大值就是真正应该选择的倍频呢有二:
??第一,在这些候选峰值之中,横坐标的差值是非常小的,往往都在理论值的正负0.1-0.7%的区间内。上图是为了凸显选择数据的纠结所以把图像放得很大,但实际上,往往横坐标只浮动了几赫兹就能让纵坐标翻一倍、甚至三四倍,那么取舍也很分明了。
??第二,李谷一她自己唱出的声音并不完美,有多个峰值是正常现象。虽然我记录的n次倍频不能全然代表整段的n次谐波,但它是这一段谐波里最能代表这段谐波的峰值。
??故而经过仔细取舍,我最终选择采取“取最高峰”的方式来记录倍频的值。
04 数据分析
??在第二部分“原理”中,已经解释了基频与倍频的关系——倍频频率按理论来说必然是基频频率的整数倍。回顾我们得到理想公式的诸多假设,其中两点实际上并不能完全成立:一.振动的弦长度是一定的。二.弦是各处均匀的。人的声带在振动时长度是一定的吗声带是均匀的吗因为这些假设我们不能保证,所以说会出现各种具有研究意义的误差以及有意思的现象,也能观察到一些规律。
4.1 峰值偏离与是年龄关系
4.1.1 峰值偏移与年龄观察
??在理想模型里面,倍频应该是严谨地是基频的整数倍。所以我在最开始时,是非常严格地遵守这一条规则去采集数据的。但是我逐渐发现,恰在x值=基频整数倍的时候,y值并不在峰之上,甚至还有的恰好落在了谷底,那样子的得到的y值数据十分不恰当。所以在实验进程初期个人就有猜测:当把理论体系搬运到实际实验中时,因为种种理想假设失效,会出现一些小误差。得出这个结论以后,我转变了数据的采集方法,也开始深入研究真实峰值与理论峰值的偏离与年龄的关系。
??在这个问题中首先要把握住“偏离”这个词汇,也由此延伸出两条不同的道路——分析差值,分析比值。
??所以我放弃了对于数据散乱的差值的分析,转入对于比值的分析。在此部分中,新的问题又涌现出来,这也是我至今并未给出确定答案的——如何用几个已知的变量去定义这个偏离尝试中从三种思路提出了三种效果不同但各有道理的方案:
??令基频=b,谐波次数=n,真实频率=t,abs()为取绝对值函数,理论频率
??三个方案的数据意义是不同的。第一个反应的是真实与理论的差值以真实频率值为参考的偏离率;第二个反应的是真实与理论的差值以理论值为参考的偏离率;第三个反应的则是基频与倍频的直接运算关系,即基频*(h(x)+n)=倍频。在三者都各自有其不可替代的意义的情况下,我把三种分析方式的结果都罗列了出来。另外,为了对于每一年的总体偏离状况有一个总体的了解,我把2-8次谐波的偏离率全部相加,得到了total一栏。此处以“宵”字为例,计算得三张表格:
年份 | f(x) total | g(x) total | h(x) total |
---|---|---|---|
2019 | 0.037030 | 0.036831 | 0.153925 |
2018 | 0.040015 | 0.040001 | 0.187327 |
2017 | 0.014949 | 0.014903 | 0.061542 |
2016 | 0.035468 | 0.035663 | 0.120753 |
2015 | 0.040381 | 0.040372 | 0.172545 |
2014 | 0.045170 | 0.045437 | 0.204236 |
2013 | 0.051366 | 0.051117 | 0.247460 |
2011 | 0.045015 | 0.045084 | 0.265867 |
1996 | 0.025946 | 0.025933 | 0.108896 |
1992 | 0.019542 | 0.019492 | 0.091860 |
1990 | 0.032161 | 0.032152 | 0.145650 |
1984 | 0.032722 | 0.032963 | 0.132432 |
??(注:在求和时考虑到有些年份观察不到某些次数的谐波,所以在计算时引入变量k,表示有k个谐波是观测不到的。因为观测不到谐波并不能够证明偏离是没有的,所以为公平起见,total这个量在通加的基础上进行覆盖: 。)
??三者虽然不尽相同,但三个公式得出的值的大趋势是一样的。根据数据制作的相应变化趋势图如下图所示:
??第一条结论与第一张小范围的数据分析结论是一致的,而第二条个人认为是属于巧合——基音降低使偏移缩小、年龄增加使偏移增加,两个作用相反的变化同时存在,最后恰巧前者的影响力更大一些。
??分两次来制图分析是我认为有必要的。第一,1984-2010年跨越了26年却仅有4份数据,要研究一个连贯的变化不如2011-2019年的数据有效。第二,谐波次数增加以后数据过于复杂,直接上手分析会造成困扰,不过最后发现的规律也得到了验证。
??本章承接4.1.1峰值偏移与年龄的初步结论,观察到偏移、基频、年龄三者互动关系的存在,为定量尝试做了事实基础。
4.2 基频倍频与峰值偏移与年龄相关分析
??本部分旨在提出基于上文所观察到明显规律的进一步探索的方法。
??本部分将围绕“关联函数”(即两个数组协方差比上各自标准差的值)展开。一般而言,两个数组的关联度如果可以达到0.9以上,那么就可以认为是具有较强关联性的。在初步尝试中,本人将各年龄的峰值偏移总和作为数组A,各年龄的基音频率作为数组B,经计算得关联函数等于0.61545。这个数据表明,三个因素在计算关联函数是是必须要同时考虑到的。
??为把“年龄”融入到这个关联系数的计算当中,经过思考,我把[峰值偏移+f(相对年龄)]作为数组A,各年龄的基音频率作为数组B进行尝试。相对年龄是我在这里使用的年龄计算方式,即把最早的1984年作为0,1990作为6,1992作为8,以此类推。
??现在待确定的是这个f(x)到底是何种关系。因为每一次计算关联系数步骤很复杂,所以我手动计算不是很切实际,因为我要处理的数据量是极大的。鉴此,我用python简单地编程了一个程序来进行计算。我先假设它的影响方式是一次的,设斜率为k,以0.1为步长从0开始增大到100,又以0.1为步长从0开始减小到100。下图是结果展示,k>0时最大值在k=100时取到0.89左右,并仍然具有缓慢上升的趋势,可能在0.90左右存在其渐近线。k
05 结论与展望
5.1 结论
??这里我按照数据分析各板块的顺序来进行结论的总结。
??首先是在4.1.1中,通过不同的定量方式来考察“宵”字12份样本中每一次峰值横坐标与理论的偏离程度,并发现随着年龄上升,偏离率在三种定量方式中都处于上升的趋势之中。随后在4.1.2进一步分析,加入基音频率作为第三个变量分析,发现基音的上升和年龄的上升共同会导致偏离程度的加剧。此两章论证了年龄增长会导致这个偏离变大,但同时降低基频可以一定程度上掩盖此问题。
??4.1.3是一个对上文三变量定量情况的讨论,目前得出最合理的说法是:数组(峰值偏移-2*相对年龄)与基频关联度最大。这个尝试具有可拓展性,也或许可以为定量表示声带衰老程度提供提示。
??最后,在4.2中,我对于每一次峰值的y值进行分析,发现二次、三次谐波显著含能量更大。因为数据采集方式问题导致此板块无法深入分析。如果可以在进一步研究中把图像围成的面积作为新的y值标准,或许会有新的突破。
5.2 展望
??一方面,这个项目本身可以被进一步优化。
??因为前后此项目并前后用时也未超过一年,我是很难做到自己来做实验样本的。所以就只能在 上去获得实验样本。《难忘今宵》作为一个跨度非常大而且还是同一位演唱者的一份数据在我看来已经是非常好的突破口了。然而它也存在着伴奏音乐、背景噪声、多次录制使音频质量下降(它录一次,我再录一次)等等问题。如果能把这个项目作为一个长期项目(至少……四五年)的话,一定会是对于实验的一个重要优化。
??我的对于这个课题所涉及的领域的了解还需要加深。举一个例子,我在确定谐波峰值(见3.2.4)时最终统一采取了最高峰峰值,虽然成功避免了数据的混乱,但这样子是不够严谨的。我想可能是因为我对于谐波的认知不够到位所以才找不到一个更好的方法。
??其实做这个项目的过程也是一个我自己去摸索去提高的过程,在我的认知不断地被新知更新的时候,许多原先做的老数据就会暴露出问题。我不断地回过头去刷新老数据实际上花了挺多时间。如果时间允许,我希望可以再多挑几个字出来进行研究来把这个数据量进一步扩大。相信那样能让我发现更多。
??另一方面,这个项目在几个点上可以被进一步拓展:
??此处引入的仅仅是“年龄”这个单一变量,那么性别呢经过训练呢技巧呢更多的变量在一个全新的课题里是可以被拓展进去的。
??可观测到的最高谐波次数到底与什么有关问题在调查过程中就已经引起了我的好奇了,为什么我第一波样本里一般只能最高到达三次、四次,而第二波里却能达到八次、九次长问题,还是强度问题,还是发音口型问题呢p>
??是否能将我的结论与生物板块进行更多的结合,而不要只是停留在发声器官老化这一层上然我可以预想到,这个结合是对现在的我还是有一定技术困难的。)
??声带老化在生物领域中更多是现象性的,如果本研究足够成熟,本人认为有可能可以作为定量声带衰老程度的一种方式。
?音发声研究[D]. 博士学位论文,北京大学,2010 [2]覃折波,何芸,冯玉洁,郭燕丽,华兴. 正常成人声带区解剖结构的超声成像[J]. 临床超声医学杂志 2017,19(1):14-17 [3]铃木徹. 声带肌的衰老变化[J]. 日本耳科会 1982,85(11):1469 [4]张雪源. 面向音频检索的音频特征分析方法研究[D]. 博士学位论文,华南理工大学,2015 [5]黄天乾,谢志文. 钢琴幅度谱的七、九次谐波对钢琴音质影响的研究[J]. 电声基础 2005,4:4-7 [6]杨婧. 基于谐波结构的乐器音色提取方法研究[D]. 硕士学位论文,哈尔比工业大学,2018

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!