CVPR 2020 | 跟郎朗媳妇有得一拼的AI,只看弹琴动作,完美复现原声

点击上方,选择星标置顶,不定期资源大放送

Follow小博主,每天更新前沿干货

来自华盛顿大学的研究团队提出了一种新方法Audeo,就解锁如此神奇的操作——仅仅根据钢琴师弹奏时的动作,就能直接复现原声音乐。

然后,你知道这是哪首曲子吗p>

大部分人(或许郎朗级别的大神们可以)应该是猜不到的。

但AI可以,下面便是这项技术复现的原声音乐。

那么,这般神奇的操作是怎么实现的呢p>

三步实现「看动作识音乐」

简单来说,Audeo方法主要包括三大步骤,分别是:

  • 钢琴按键检测

  • 生成乐谱内容

  • 合成音乐

输入是弹钢琴视频中5个连续的帧,将它们输入到Video2Roll Net中,经过ResNet18、特征变换、特征细化(refinement)和相关学习的处理,最后输出中间帧的按键预测。

值得注意的是,在这个步骤中,研究人员没有直接使用ResNet18,而是在此基础上做了算法改良,提出了Video2Roll Net。

这样做的原因很简单,就是ResNet18检测到的「精度」不够细致,下面2张热力图的对比,便一目了然地展示了2种方法的效果。

并且,研究人员表示:

这种不匹配的现象,是经常发生的。

于是,研究人员便提出了一个叫 Roll2Midi Net的方法解决了这个问题。

主要是在二者之间加入了一个生成对抗 络(GAN),来调节并解决上述问题。

将 Midi 作为输入,经过一个上采样,而后可以选择通过「Midi 合成器软件」,也可以选择使用「PerfNet+Unet+GriffinLim」的组合方式来生成音乐。

至于 Audeo 方法与其它方法的定量比较,主要集中在第二个核心步骤。

还可以将钢琴音乐转换成日本十三弦古筝的声音。

从左至右:Kun Su、Xiulong Liu和Eli Shlizerman

论文一作是Kun Su,本科就读于美国纽约州伦斯勒理工大学(RPI),目前在华盛顿大学攻读电子与计算机工程系攻读硕士。

Xiulong Liu

目前专攻生物神经 络和人工神经 络的基本特性,通过结合时空数据分析、机器学习和动力系统理论的方法将这两个系统联系起来。

欢迎添加群助手微信,邀请您加入大佬云集-计算机视觉交流群!

CVPR 2020 | 跟郎朗媳妇有得一拼的AI,只看弹琴动作,完美复现原声

bsp;长按识别添加,邀请您进群!

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年6月7日
下一篇 2020年6月7日

相关推荐