点击上方,选择星标或置顶,不定期资源大放送
Follow小博主,每天更新前沿干货
来自华盛顿大学的研究团队提出了一种新方法Audeo,就解锁如此神奇的操作——仅仅根据钢琴师弹奏时的动作,就能直接复现原声音乐。
然后,你知道这是哪首曲子吗p>
大部分人(或许郎朗级别的大神们可以)应该是猜不到的。
但AI可以,下面便是这项技术复现的原声音乐。
那么,这般神奇的操作是怎么实现的呢p>
三步实现「看动作识音乐」
简单来说,Audeo方法主要包括三大步骤,分别是:
-
钢琴按键检测
-
生成乐谱内容
-
合成音乐
输入是弹钢琴视频中5个连续的帧,将它们输入到Video2Roll Net中,经过ResNet18、特征变换、特征细化(refinement)和相关学习的处理,最后输出中间帧的按键预测。
值得注意的是,在这个步骤中,研究人员没有直接使用ResNet18,而是在此基础上做了算法改良,提出了Video2Roll Net。
这样做的原因很简单,就是ResNet18检测到的「精度」不够细致,下面2张热力图的对比,便一目了然地展示了2种方法的效果。
并且,研究人员表示:
这种不匹配的现象,是经常发生的。
于是,研究人员便提出了一个叫 Roll2Midi Net的方法解决了这个问题。
主要是在二者之间加入了一个生成对抗 络(GAN),来调节并解决上述问题。
将 Midi 作为输入,经过一个上采样,而后可以选择通过「Midi 合成器软件」,也可以选择使用「PerfNet+Unet+GriffinLim」的组合方式来生成音乐。
至于 Audeo 方法与其它方法的定量比较,主要集中在第二个核心步骤。
还可以将钢琴音乐转换成日本十三弦古筝的声音。
△从左至右:Kun Su、Xiulong Liu和Eli Shlizerman
论文一作是Kun Su,本科就读于美国纽约州伦斯勒理工大学(RPI),目前在华盛顿大学攻读电子与计算机工程系攻读硕士。
△Xiulong Liu
目前专攻生物神经 络和人工神经 络的基本特性,通过结合时空数据分析、机器学习和动力系统理论的方法将这两个系统联系起来。
欢迎添加群助手微信,邀请您加入大佬云集-计算机视觉交流群!

bsp;长按识别添加,邀请您进群!
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!