Facebook视频整容滤镜助你逃避人脸识别:熟人认得出,但AI不能

选自research.fb

人脸识别正得到越来越广泛的应用,但有时我们希望在 上发布自己视频的同时又不被各种人脸识别软件识别出来。近日,Facebook AI 研究所提出了一种可以让你在人脸识别软件面前「隐身」的方法。这种方法会对视频中的人物面部特征进行修改,修改后的人脸与原人物看起来高度相似,但 AI 却识别不出修改后的视频人物,效果堪比整容。

经过修改的影视片段。左:原视频;右:用 Facebook 的方法修改后的视频。

经过修改的名人访谈片段。左:原视频;右:用 Facebook 的方法修改后的视频。

论文链接:
https://research.fb.com/wp-content/uploads/2019/10/Live-Face-De-Identification-in-Video.pdf?

在面向消费者的图像和视频应用中,人脸相较于其它所有目标而言是格外重要的。因为人脸技术既很有用,又会产生很大影响,因此存在很多道德上的担忧。人脸识别可能导致隐私受损,而人脸替换技术则可能被错误地用于创建误导人的视频。 Facebook 的这项研究关注的重心是视频身份消除(video de-identification),这个视频过滤应用既需要优于之前最佳水平的技术进步,而且在本质上是向善的。该应用需要创建出类似长相的人的视频,使得被感知的身份发生改变。这种技术是很有用的,比如能让用户在公共论坛上匿名地发布看起来很自然的视频消息,并防止人脸识别技术认出他们。 视频身份消除任务的难度很高。视频需要得到无缝式的修改,进而实现身份转变,同时又不能导致闪烁或其它视觉伪影或畸变,而且还要保证其它元素保持不变,如图 1 所示。这些因素包括姿势、表情、嘴唇位置(对应未经改变的语音)、遮挡、光照和阴影、动态。

图 2:(a) 络架构,其基础包含一个预训练的人脸识别 络。(b)所使用的多图像感知损失示意图,其使用了同一个人脸识别 络的两个副本。 图 2(a) 展示了 络架构。编码器由一个卷积层构成,其后跟有五个使用了实例归一化的有步幅深度可分卷积。之后再使用一个单个全连接层,再连接上目标人脸表征。解码器则由一个全连接层构成,其后是扩大(upscale)模块和残差模块构成的一个 lattice,最后是用于输出图像的 tanh 激活函数以及用于掩码输出的 sigmoid 激活函数。每个扩大模块都由一个 2D 卷积构成,其过滤器数量是输入通道大小的两倍。经过实例归一化和 LReLU 激活之后,激活会被重新排序,使得宽度和高度加倍,同时通道大小减半。每个残差模块输入与 Conv2D-LReLU-Conv2D 链的输出求和。 其中还使用了一个低容量的 U-net 连接(32x32x1)以放松自动编码器的瓶颈限制,从而使 络更侧重于编码与传输相关的信息。这个连接的大小不超过瓶颈大小(1024),而且由于输入图像的畸变,这能防止自动编码器在训练阶段早期坍缩成简单的重建自动编码器。 判别器由四个带步长的卷积构成,它们使用了 LReLU 激活,并且除第一个卷积外都使用了实例归一化。之后使用一个 sigmoid 激活的卷积,以得到单个输出。 该 络有两个版本:一个生成 128×128 图像的低分辨率版本,一个生成 256×256 图像的高分辨率版本。其中高分辨率版本的解码器经过简化和扩大,包含 6 个扩大模块与残差模块构成的 lattice。除非另有说明,否则下面给出的实验都是用高分辨率模型完成的。 实验

表 4:在包含 54000 人的数据集上识别正确的结果(SD 是指标准差)。评估是在预训练的 LResNet50E-IR ArcFace 络上完成的。 下表 5 给出了给定一个人的身份消除 LFW 图像对的结果(身份消除应用在每对图像的第二张图像上)。

表 5:在 LFW 基准上的结果,使用的模型是在 VGGFace2 或 CASIA-WebFace 上训练的 FaceNet。结果是在误 率为 0.001 时的正确率。
下图 4 比较了新方法与 [31] 的结果。

表 3:对于图 7 中的图像,原始图像与身份消除图像之间的距离。 下图 8 给出了与 [49] 的结果的比较。

图 8:与 [49] 的比较。 下图 5 给出了与 [43,44] 的结果比较。

图 6:在 NIST 人脸识别挑战赛 [36] 中非常困难的样本上应用身份消除的结果。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2019年10月3日
下一篇 2019年10月3日

相关推荐