CVPR 2020 | 跟郎朗媳妇有得一拼的AI，只看弹琴动作，完美复现原声

点击上方，选择星标或置顶，不定期资源大放送

Follow小博主，每天更新前沿干货

来自华盛顿大学的研究团队提出了一种新方法Audeo，就解锁如此神奇的操作——仅仅根据钢琴师弹奏时的动作，就能直接复现原声音乐。

然后，你知道这是哪首曲子吗p>

大部分人（或许郎朗级别的大神们可以）应该是猜不到的。

但AI可以，下面便是这项技术复现的原声音乐。

那么，这般神奇的操作是怎么实现的呢p>

三步实现「看动作识音乐」

简单来说，Audeo方法主要包括三大步骤，分别是：

输入是弹钢琴视频中5个连续的帧，将它们输入到Video2Roll Net中，经过ResNet18、特征变换、特征细化（refinement）和相关学习的处理，最后输出中间帧的按键预测。

值得注意的是，在这个步骤中，研究人员没有直接使用ResNet18，而是在此基础上做了算法改良，提出了Video2Roll Net。

这样做的原因很简单，就是ResNet18检测到的「精度」不够细致，下面2张热力图的对比，便一目了然地展示了2种方法的效果。

并且，研究人员表示：

这种不匹配的现象，是经常发生的。

于是，研究人员便提出了一个叫 Roll2Midi Net的方法解决了这个问题。

主要是在二者之间加入了一个生成对抗络（GAN），来调节并解决上述问题。

将 Midi 作为输入，经过一个上采样，而后可以选择通过「Midi 合成器软件」，也可以选择使用「PerfNet+Unet+GriffinLim」的组合方式来生成音乐。

至于 Audeo 方法与其它方法的定量比较，主要集中在第二个核心步骤。

还可以将钢琴音乐转换成日本十三弦古筝的声音。

论文一作是Kun Su，本科就读于美国纽约州伦斯勒理工大学（RPI），目前在华盛顿大学攻读电子与计算机工程系攻读硕士。

目前专攻生物神经络和人工神经络的基本特性，通过结合时空数据分析、机器学习和动力系统理论的方法将这两个系统联系起来。

欢迎添加群助手微信，邀请您加入大佬云集-计算机视觉交流群！

bsp;长按识别添加，邀请您进群！

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！