“篡改”视频脚本,让特朗普轻松“变脸”?AI Deepfake再升级

编译 | 一一、馨怡

出品 | AI科技大本营(ID:rgznai100)

导语:众所周知,利用 Deepfake 技术可以自动生成虚假图像,轻松达到以假乱真的结果。但这还不够,随着该技术的不断升级,它还有更多意想不到的应用正在被挖掘。现在,一个能更加方便快捷创建虚假视频和错误信息的方法出现了。

(注:视觉音素 / 视素(visual phoneme/viseme)是嘴唇和面部的姿势或表达,其对应于特定的语音(音素),是具备可理解度的基本视觉单元。在计算机动画中,我们可以使用视觉音素来制作虚拟角色的动作,令它们看起来像是在说话。)

研究人员还将他们的方法与其他对讲视频合成技术进行了比较。他们分别用 5% 、10%、50% 和 100% 的训练数据来测试结果。使用 100% 的数据量,每幅图像的平均 RMSE(标准误差) 为 0.018,使用 50% 的数据量为 0.019,只使用 5%的数据量为 0.021 。

他们还用各种合成短语进行测试,发现短语长度与结果质量没有直接关系。而组成短语的视位和音素对齐质量等其他因素会影响最终结果。

他们还尝试将 MorphCut 应用于单词的加法问题。MorphCut 在两帧图像之间产生一个大的头部跳跃。

将检索到的viseme序列与MorphCut拼起来生成一个新单词

同时,他们与 Face2Face[Thiesetal.2016]方法进行了比较,他们的方法生成了高质量结果,而基于检索的 Face2Face 方法显示出鬼影现象,并且不稳定。

与 Face2Face 进行比较

以上评估表明,他们的方法展示了令人信服的结果,但该研究也存在一定的局限性,还有进一步优化的空间。

研究人员还指出,他们还不能改变人物说话声音的情绪或语调,因为这样做会产生“不可思议的结果”,例如,如果人物在说话时挥手对脸部进行遮挡会让算法完全失效。

在未来,研究人员指出,端到端学习可以用来学习一种从文本到视听内容的直接映射。

这项技术的潜在危害非常令人担忧,该领域的研究人员经常因未能考虑可能滥用其研究而受到批评。但参与这一特定项目的科学家表示,他们已经考虑过这些问题。

在这篇论文附带的博客文章中,他们写道:“虽然图像和视频处理的方法与媒介本身一样久远,但当其应用于思想和意图等权威证据的交流方式时,滥用的风险会更高。“他们也承认,不法分子可能会使用此类技术伪造个人陈述并用于诽谤知名人士。

但显然,The Verge 指出,水印很容易被消除,而且 络媒体在传播会去掉上下文场景描述,虚假事物并不需要完美无瑕。很多虚假的新闻文章很容易被揭穿,但这并不能阻止它们的传播,尤其是对于那些想要相信这种符合他们先入之见的谎言的 区。

当然,这样的技术也有许多有益的用途,比如对电影和电视行业有很大的帮助,可以让他们在不重新录制镜头的情况下修复读错的台词,并帮助不同语言的演员进行无缝配音。不过,与潜在的滥用等威胁相比,这些益处好像并不足以使人们信任这项技术,反而,它在技术上的突破更大,人们会更加感到不安。

https://www.theverge.com/2019/6/10/18659432/deepfake-ai-fakes-tech-edit-video-by-typing-new-words

https://www.ohadf.com/projects/text-based-editing/

https://www.ohadf.com/projects/text-based-editing/data/text-based-editing.pdf

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2019年5月7日
下一篇 2019年5月7日

相关推荐