装逼利器 Prisma 用了什么洪荒之力?

科技蜘蛛:可能是欧洲第一科技媒体

正值北半球炎炎夏日,手机端也正有两款应用炙手可热。Pokemon Go 自不必提,而 Prisma 正在成为朋友圈新宠。

如果你还没听说过 Prisma,相信你的 络 交圈也已被各种俊男美女的自拍刷屏。没错,制作这些有艺术气息的自拍像的幕后艺术家正是 Prisma。

Prisma 是一款 Made in Russia 的图片处理手机App。目前版本的Prisma 拥有大约30个艺术风格滤镜,比如挪威画家蒙克的《呐喊》,美国波普艺术家罗伊利希滕斯坦的《Go for Baroque》,康定斯基的抽象画《Transverse Line》等等。用户可以把自己拍的照片和任何一个滤镜结合,生成自己的艺术作品。

出于好奇,笔者也下载了 Prisma App,毫不费力便生成了各个版本的埃菲尔铁塔。玻璃风格,版画,浮世绘,油画,瞬间变身艺术家的感觉有木有。

当然, 友们更会玩。

Prisma 行走在威尼斯

Prisma 打脸版

Prisma 之 “周一又到了,我去上学校。。。”

非典型俄罗斯式创新

在当今日新月异的互联 时代,作为老牌科技强国的俄罗斯多少显得星光黯淡。其实俄罗斯科技实力雄厚,拥有一大批脑洞大开的发明家,但是缺少把科技转化为创新和商业利润的能力。麻省理工的教授 Loren Graham 曾经这样评价俄罗斯科学界:Great at invention but terrible at innovation, or using the science to develop a product that can be put to use.

Prisma 的横空出世,算是俄罗斯少有的高光时刻。据 CEO Alexei Moiseyenkov 介绍,技术团队花了两个月时间研究数学模型,接着从四月开始又花了大约两个月开发出了 Prisma 这款 App。

Prisma 面世后瞬间征服俄罗斯,以及乌克兰,爱沙尼亚这样的前苏联国家的手机应用市场,两周之内就达到160万下载量,进而红遍全球。下图是 Prisma 在美国 iPhone 端的排名飙升情况。

在没有任何商业推广的情况下,成千上万的 友在 络上分享 Prisma 制作的图片,成为了免费的广告大军。巨大的成功甚至让开发团队措手不及,不得不以每天扩大一倍的速度提升服务器处理能力。

和美图秀秀有区别吗?

也许你会说,这不过就是一个图片处理App嘛,市面上多的是。美图秀秀,还有今年分别被 Facebook 和 Snapshot 收购的 Masquerad 和 Looksery,这些都是成功的图片处理 App。与它们相比,Prisma 究竟有什么独特之处?

简单的说,Prisma 之前的图片处理应用大致都是同一个模式:App中预先设置了一些固定的算法,磨皮也好,美颜也好,文艺青年最爱的胶片模式也好,都是套路。用户拍一张照片,然后把预设的算法运行一下,就得到了可以发朋友圈的图片。这些预设是不随输入图片的改变而改变的。

Prisma 背后的洪荒之力

Prisma 用的是一种全新的套路 —— 没有预设。这一切的背后是CNN,也就是卷积神经 络。

先来讲讲卷积神经 络的基本特性。深度学习的热潮下,说卷积神经 络是当今计算机科学界的知名 红,应该不为过。简单的说,神经 络可以自动学习数据的特征和观察结果之间的关系,并做出尽可能准确的预测。

卷积神经 络由多层神经元组成,每一层都可以被看作是某种检测滤波器,用于检测输入数据中是否存在某种特征。和传统的预先设计的滤波器不同,CNN的滤波器是根据数据和任务目标而自动学习的。拿基于人脸的任务做例子,较低层的滤波器可以检测一些局部而具体的特征,这些特征一般比较简单,比如线条,比如眼睛的形状等;较高层的滤波器则可以处理全局而抽象的特征,这些特征更复杂,比如面部的表情。最后的输出层则负责把之前检测到的特征集合起来,并做出最后的判断。

如此,Prisma 的灵感就不难理解了。首先,你得拥有一个已经训练好的卷积神经 络。此 络可以用著名的 ImageNet 计算机视觉识别挑战的数据集训练,当然也可以用别的自然图片集训练。然后你需要有两张基准图片,一张是内容图片 (content image),也就是你用手机拍摄的照片(下图左);另一张是风格图片 (style image) ,包含你想要的艺术风格,比如梵高的星空(下图右)。

目标是要利用卷积神经 络 (此时已训练完毕,权重是固定的),训练出一张图片,可以完美结合这两张基准图片的特点 (内容和风格)。

我们先生成一张随机噪声图片,作为卷积 络的输入,在每一层都能得到一组特征图。从内容上来说,较低层更忠于原图的像素值,而较高层丢失了像素信息,拥有更高层次的内容信息。对内容的重现,算法采取的是较高层特征。图片的艺术风格信息则可以从每一层提取。每一层都拥有多个滤波器,风格信息便是这些滤波器输出的多个特征图的相关性矩阵。

下图上部是风格重建,下部是内容重建。

最后一步是设置目标函数。目标函数由三部分组成:内容损失,风格损失,和一个用于去噪的正则化项 (目的是使图片更自然光滑)。利用经典的梯度下降算法,我们可以不断训练起初的那张随机噪声图片,让它在中间层的内容输出和风格输出尽量接近预先提供的那两张基准图片。

下面是见证奇迹的时刻。。。从左至右,无中生有,算法一步一步把随机噪声变成了朋友圈里的艺术照。

算法到产品的进化

以上便是德国科研团队的造的轮子。如果仅限于此,便不会有 Prisma 的成功。笔者亲测,用 Macbook Pro 自带的CPU生成以上的图片,大约需要一个小时,用单一的 GPU 会快一些,但处理时间的单位还是在分钟级别。这也是大部分基于深度学习的算法只适合于拥有大量计算资源的大公司,而鲜有个人终端应用的主要原因。毕竟没有人会愿意为分享一张图片给朋友,等待一个小时。

而 Prisma 处理一张图片的时间大约是几秒钟。手机终端自然无法承受如此大的计算量。俄罗斯的团队采取了基于云的计算方案,把运算放到远程服务器上,大大提高了用户体验。

Prisma 的未来

在技术方面,Prisma 的 CEO Alexei Moiseyenkov 说,他们的下一步将把应用从静态图片扩展到视频领域。这种拓展将主要有两个挑战。第一,视频的数据处理量比图片更大,对计算能力的要求将有显著提升。第二,如何保持帧图像在时间轴上的信息一致性,而不是单独处理每一帧图像,也是需要考虑的问题。

商业角度来讲,Prisma 很可能会仿效别的手机端图片处理软件,走上被收购的道路。早些时候 Snapshot 分别投资1.5亿和1亿美元收购了乌克兰的实时自拍处理软件Looksery和表情包生成服务Bitmoji。Facebook 今年三月也收购了来自白俄罗斯的 Masquerade。Prisma 在面世仅仅一周后,就收到了俄罗斯 络公司 Mail.Ru 的价值200万美元的投资。

值得一提的是,以上手机App不少都基于机器视觉或深度学习技术。这些需要大量计算的图像任务,随着云计算的普及和手机设备端配置的提升,正越来越接近普通用户的生活,也将给行业提供无限想象空间。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2016年7月3日
下一篇 2016年7月3日

相关推荐