deepfake的意思是:深度伪造。
近年来,计算机视觉领域的生成技术越来越强,相应伪造技术也越来越成熟,从DeepFake换脸到动作模拟,让人难辨真假。从效果上来看,就是生成的图像更逼真了,人物在视频里动,背景也不会发生变化。
输入的多张源图片通常都会提供不同的外观信息,减少了生成器幻想的空间,比如下面这两张作为模型输入。学术界对于视频模仿最早可以追溯到2005年。
很多项目面部再现的实时表情传输、Face2Face、合成奥巴马、Recycle-GAN、ReenactGAN、动态神经辐射场等等多样化地利用当时有限的几种技术,如生成对抗网络(GAN)、神经辐射场(NeRF)和自编码器。
并不是所有方法都在尝试从单一帧图像中生成视频,也有一些研究对视频中的每一帧进行复杂的计算,这实际上也正是Deepfake所走的模仿路线。
但由于DeepFake模型获取的信息较少,这种方法需要对每个视频片段进行训练,相比DeepFaceLab或FaceSwap的开源方法相比性能有所下降,这两个模型能够将一个身份强加到任意数量的视频片段中。
deepfake可以实时转换。根据查询相关信息,DeepFaceLive是一款全新的开源deepfake软件,可让通过Zoom等视频会议平台实时变换面部。实时换脸项目deepfacelive它是著名开源换脸项目deepfacelab的兄弟项目,同属一个团队开发。Deepfake,是由“deep machine learning”(深度机器学习)和“fake photo”(假照片)组合而成,本质是一种深度学习模型在图像合成、替换领域的技术框架,属于深度图像生成模型的一次成功应用。
其实该技术最早版本在2018年初就被提出了,当时在构建模型的时候使用了Encoder-Decoder自编解码架构,在测试阶段通过将任意扭曲的人脸进行还原,整个过程包含了:获取正常人脸照片=>扭曲变换人脸照片=>Encoder编码向量 =>Decoder解码向量 =>还原正常人脸照片五个步骤。而ZAO在Encoder-Decoder的框架之上,又引入了GAN(生成对抗网络)技术,不但降低了同等条件下的模型参数量和模型复杂度,同时使生成的人脸更为清晰,大大降低了对原图的依赖,显著提升了换脸的效果,而且基于GAN技术的Deepfake改进版已经在Github开源。
尽管「Deepfake」这类应用非常吸引人,但落到实处还是会引发很多的问题,不论是伦理还是隐私。后面我们将介绍生成对抗网络和变分自编码器两种换脸的解决方案,也许大规模应用还能进一步催生效果更好、算力更少的解决方案。
直观而言,GAN 这类生成模型可以生成非常逼真的人脸图像,那么现在需要将某个人的特点迁移到另一张人脸上,这就需要更多的模块来定义需要迁移的位置与特点。
总体上,「Deepfakes」换脸主要分为以下过程:
其中人脸定位已经非常成熟了,一般定位算法可以生成人脸的特征点,例如左右眉毛、鼻子、嘴和下巴等等。人脸转换也就是采用 GAN 或 VAE 等生成模型,它的目标是生成拥有 A 表情的 B 脸。最后的图像拼接则是将人脸融合原图的背景,从而达到只改变人脸的效果。
当然,如果生成 ZAO 这种小视频,那么还需要一帧帧地处理图像,然后再将处理后的结果重新拼接成小视频。
人脸定位也就是抽取原人脸的表情特征,这些特征点大致描述了人脸的器官分布。我们可以直接通过 dlib 和 OpenCV 等主流的工具包直接抽取,但它们一般采用了经典的 HOG 的脸部标记算法。这种算法根据像素亮度差确定一些「箭头」,从而找到人脸显著的特征点。
如上是一些人脸特征点,如果我们想换脸的表情更加真实和准确,那么也可以使用目前主流的人脸识别算法,它利用卷及网络能生成更完美的特征点。但是这类深度模型需要更大的算力,尤其是在处理高分辨率图像时。
首先对于变分自编码器(VAE),我们知道它希望通过无监督的方式将人脸图像压缩到短向量,再由短向量恢复到人脸图像。这样短向量就包含了人脸图像的主要信息,例如该向量的元素可能表示人脸肤色、眉毛位置、眼睛大小等等。
所以如果我们用某个编码器学习所有人,那么它就能学习到人脸的共性;如果再用某个解码器学习特定的某个人,那么就能学习到他的特性。简单而言,当我们用通用编码器编码人脸 A,再使用特定解码器 B 解码隐藏向量,那么就能生成出拥有 A 的人脸表情,但却是 B 人脸的图像。
这就是 VAE 的解决方案,对于 GAN 来说,它会利用抽取的人脸特征点,然后根据生成器生成对应的目标人脸图像。这时候,编码器同样也会将真实的目标人脸编码,并和生成的目标人脸混合在一起。因此,如果判别器不能区分根据某人特征点生成的人脸和真实人脸有什么区别,那么生成的人脸就非常真实了。
如上所示为论文 Few-Shot Adversarial Learning of Realistic Neural Talking Head Models 的解决方案,它只需要几张目标人脸图,就能根据原人脸的特征点生成极其逼真的效果。
知道了如何制作换脸视频,我们还要掌握一些识别换脸视频的技术,因为这些换脸技术给大众带来欢乐的同时,也在被不少人滥用。这种滥用不仅给公众人物造成了困扰,甚至还威胁到了普通大众。
由于用来训练神经网络的图像数据往往是睁着眼睛的,因此 Deepfake 视频中人物的眨眼或不眨眼的方式通常是不自然的。
去年,奥尔巴尼大学(University of Albany)的研究人员发表了一篇论文,提出了一种可以检测这种不自然眨眼的技术。有趣的是,这项技术使用的也是深度学习,和制作假视频的技术是一样的。研究人员发现,利用眨眼视频训练出的神经网络可以在视频中定位眨眼片段,找出非自然眨眼运动的一系列帧。结果发现,Deepfake 视频中人物的眨眼不符合正常的生理学规律,由此可以识别出哪些是原始视频,哪些是 Deepfakes 视频。
每个人都有独特的头部运动(如开始陈述事实时点头)和面部表情(如表达观点时得意得笑),但 Deepfakes 中人物的头部动作和面部表情都是原人物而非目标人物的。
基于此,加州大学伯克利分校的研究者提出了一种检测换脸的 AI 算法。其基本原理是:利用一个人的头部动作和面部表情视频训练一个神经网络,然后拿这个神经网络去检测另一个视频中的人物动作和表情是否属于这个人。模型准确率达到 92%。
(a)原始人物;(b,c)分别是 Deepfake 人物。
论文地址: http://openaccess.thecvf.com/content_CVPRW_2019/papers/Media%20Forensics/Agarwal_Protecting_World_Leaders_Against_Deep_Fakes_CVPRW_2019_paper.pdf
制作换脸视频和识别换脸就像一场猫鼠游戏,造假技术日新月异,打假技术也在不断迭代。但仅在技术层面打击这一技术的滥用是不够的,我们还需要法律的支持。
参考链接: https://www.jiqizhixin.com/articles/2019-08-31-3?from=synced&keyword=deepfake
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)