【认知计算】Deepfake/Anti-deepfake综述探究

本篇是认知计算课程的作业,关于人脸欺骗和人脸欺骗防御的综述。
完整文档参见:https://gitee.com/zstar1003/xdu-homework/tree/master/%E8%AE%A4%E7%9F%A5%E8%AE%A1%E7%AE%97

2017年12月,一位名为“Deepfakes”的用户在全球流量排名第四的国际互联 区“Reddit”上发布了一段好莱坞女星盖尔·加朵的伪造人脸视频,掀起了一阵轰动,这一事件作为开端,标志着人脸深度伪造技术的兴起,而该用户的用户名也被引用成为了这一类技术的代名词“Deepfake[1]”。
因此,Deepfake指代人脸的深度伪造,即将目标视频人物的脸替换成指定的原始视频人脸,或让目标人脸重演、模仿原始人脸的动作、表情等,从而制作出目标人脸的伪造视频。

2 Deepfake的理论与方法

2.1 基于图像域特征编码的方法

2.1.1 面部替换

面部替换是人脸视频深度伪造技术里最典型的一类算法,其主体结构基于自动编码器实现。
在训练阶段,对于原始人脸A目标人脸B,训练一个权值共享的编码器,用于编码人脸特征,而在解码阶段,A和B自训练一个独立的解码器用于重构人脸。在测试阶段,为了实现A和B之间的人脸替换,先用训好的编码器对目标人脸B进行编码,此时,用训好的A的解码器来解码由B编码得到的特征,由此可以实现将A的面部解码到B的人脸肖像上,基本原理如下图所示:

2.2.1 GAN 络结构

GAN的 络结构由生成 络和判别 络组成,模型结构如图3所示。生成器G接收随机变量z,生成假样本数据G(z)。生成器的目的是尽量使得生成的样本和真实样本一样。判别器D的输入由两部分组成,分别是真实数据x和生成器生成的数据G(x),其输出通常是一个概率值,表示D认定输入是真实分布的概率,若输入来自真实数据,则输出1,否则输出0。同时判别器的输出会反馈给G,用于指导G的训练。理想情况下D无法判别输入数据是来自真实数据x还是生成数据G(z),即D每次的输出概率值都为1/2,此时模型达到最优。在实际应用中,生成 络和判别 络通常用深层神经 络来实现。

3 Anti-deepfake的理论与方法

Anti-deepfake指代Deepfake人脸视频防御技术,根据防御策略的不同,现有的防御技术可以大体划分为被动式检测和主动式防御两大类,其中被动式检测技术侧重于事后取证,即针对已经制作并传播的视频进行检测,判别其是否属于伪造人脸视频;另一类主动式防御技术侧重于事前防御,即在人脸数据发布传播前添加隐藏信息,如水印、对抗噪声等,进行主动溯源或使得恶意使用者无法利用添加了噪声的人脸视频进行伪造,从而达到保护人脸,实现主动防御的目的。

3.1 被动式检测方法

被动式检测技术指仅从人脸视频自身获取信息或提取特征,对伪造人脸视频进行鉴别的技术,这个任务本质上是一个二分类任务。

3.1.1有伪造样本学习方法

这类方法的核心特点是利用真假成对数据作为训练的数据驱动,分类模型的学习过程需要有伪造人脸样本的参与。根据信息提取视角的不同,有伪造样本学习方法又可细分为基于空域信息的方法、基于时域信息的方法、基于频域信息的方法、基于通用伪造痕迹的方法、基于注意力机制的方法、跨模态检测方法等。

3.1.2无伪造样本学习方法

无伪造样本学习方法的模型训练过程不需要使用伪造人脸的负样本作为数据驱动,而是抓住了人脸这一特殊信息载体的某些特性,或抓住了深度伪造过程中某一固有的流程漏洞实现检测与鉴别。

3.1.3基于多任务迁移的方法

多任务迁移的方法本质上是利用其它取证或视觉任务中已有的方法进行迁移改造,应用到Deepfake人脸伪造视频的检测任务中。
例如,Haliassos等人提出的 Lip Forensics[12],将唇读任务中的预训练模型迁移到了Deepfake伪造人脸视频的检测任务中。利用了针对嘴部动作中的高级语义不规则性,以及现有伪造技术在唇形生成方面的弱点,区分真假唇形,进而鉴别伪造人脸视频。该方法由于在大规模的唇读任务数据集上进行了预训练,因此在Deepfake检测任务中, 络不会过拟合到少量的伪造人脸数据唇形上,所以在库内和跨库迁移性方面都表现出了非常优秀的性能。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年4月1日
下一篇 2022年4月1日

相关推荐