摘要
光照条件是视频外部成像环境的重要因素,可反映视频成像时的客观物理条件,即使采用复杂的计算机图形学模型,也难以完全反映光照的真实场景。针对大部分Deepfake换脸视频与真实视频在外部成像环境上的差异,提出一种基于光照方向一致性的换脸视频检测方法。本文利用Lambert光照模型逐帧计算待测视频的二维光照方向,通过判断整段待测视频二维光照方向的角度变化是否平滑确定视频真伪。实验结果表明该方法在公开的测试数据库TIMIT和FaceForensic
随着人工智能和机器学习的快速发展,视频换脸的技术门槛变得越来越低。从早期基于电脑端的Deepfake视频换脸技
换脸视频丰富了人类的社会生活,也带来了巨大的安全隐患,引起了社会各界的广泛关注,目前国内外学者已对换脸视频篡改检测技术展开相关研
为了降低计算复杂度,提高通用性,本文从视频成像的基本事实出发,利用常规图像处理技术,提出一种不依赖于深度网络特征且简单可行的方法。由于真实视频和换脸视频在成像环境上存在差异,一种合理的途径是利用这种差异进行篡改检测。真实视频一般直接通过数码成像设备录制得到;而换脸视频则是将换脸处理过的视频帧序列重新进行视频编码得到,二者在成像方式上有本质不同。
光照方向是一个重要的取证特
本文提出一种基于光照方向一致性的换脸视频篡改检测算法。首先确定待测视频的脸部检测区域,然后逐帧计算检测区域的二维光照方向矢量,以获得整段待测视频的光照角度序列,最后将光照角度序列的标准差与预先设定的判别门限进行比较,确定待测视频是否换脸。在公开的换脸视频测试数据库TIMIT和FaceForensic
Lambert光照模

图1 Lambert光照模型
Fig.1 Lambert illumination model
虽然不是所有光照环境都是单一点光源,也不是所有物体表面都会等方向性地反射光线,但Lambert模型仍是一个简单通用的光照模型,本文沿用这个模型。物体表面反射光的光照强度I的定义如下
(1) |
式中:k为物体表面的漫反射率,经验值为k=1;为物体表面的法线方向矢量;为照射到物体表面上的光照方向矢量;为环境光强度。由于实际的光照方向是三维矢量,物体表面的理论光照强度值可通过
(2) |
(3) |
式中:表示向量范数,,和表示三维光照方向矢量在三维空间坐标系x,y,z方向上的分量,表示用于计算光照方向的采样点数量,表示第i个采样点处的三维法向矢量在x,y,z方向上的分量,表示在第i个采样点处的实际光照强度值。通过对
(4) |
实际应用场景中通常针对图像计算其二维光照方向,此时可令中z分量等于0得到二维光照方向,表达式为
(5) |
(6) |
式中矩阵由矩阵去除其第3列元素后得到。
首先用一段帧长为81的真实视频和其对应的换脸视频来介绍本文方法的基本思想(

图2 真实视频和其对应的换脸视频帧图像
Fig.2 Frames of a real video and its corresponding fake video
第一行为真实视频,第二行为换脸视频,从左到右依次为视频的第1,4,7,10和13帧

图3 真实视频和其对应换脸视频光照方向角度对比
Fig.3 Comparison of illumination direction distribution between a real video and its corresponding fake video
本文算法通过视频帧图像的纹理信息估计其二维光照方向,主要包括视频分帧、选择检测区域、选择目标区域和计算目标区域二维光照方向4个部分,其算法流程如

图4 计算视频光照方向序列的算法流程图
Fig.4 Flow chart for calculating illumination direction sequence of a video
下面以
步骤1 逐帧读取视频帧图像,并使用Dlib从视频帧图像中提取人脸部分作为检测区域。
步骤2 将各帧检测区域图像转化到YCbCr图像空间,提取其对应的灰度分量图像IG,然后利用Canny边缘检测算子对IG进行边缘滤波,得到其对应的二值边缘图像IC。
步骤3 将IG和IC等比例划分为44个子区域,其中子区域序号k按照逐行扫描顺序排列,通过IG计算每个子区域的平均像素值,通过IC计算每个子区域的边缘信息所占百分比;以测试视频第1帧图像为例,其对应的和分布情况如

图5 测试视频第1帧图像对应的和分布示意图
Fig.5 Distribution of and corresponding to the first frame of the test video
步骤4 利用来分析子区域的图像亮度水平,利用来分析子区域的纹理复杂度,然后通过和选择低纹理复杂度、高平均灰度值的N个子区域作为目标区域。其理论依据是:纹理平坦的子区域能更好的体现相邻像素间的明暗变化,亮度较高的子区域能避免阴影区域的干扰,依此原则选择的目标区域可以较好反映图像的光照方向信息。具体方法如下:首先从16个子区域中选择M个较小的子区域,再从M个子区域中选择前N个较大的子区域作为目标区域,这里M∈[1,16],N≤M。以
步骤5 使用
步骤6 将步骤3中各帧目标区域图像对应的边缘信息百分比作为权重,对各帧二维光照方向向量中N个矢量元素进行加权计算,得到该帧图像的光照方向矢量;加权公式如下
(7) |
步骤7 通过计算各帧图像二维光照方向矢量的X分量和Y分量正切值所对应的角度来表示该帧的二维光照方向,然后逐帧保存每帧图像的光照方向角度,得到测试视频的光照角度序列;的表示规则如

图6 二维光照方向的角度定义
Fig.6 Definition of the angle calculated by two-dimensional illumination direction

图7 测试视频光照方向的角度分布
Fig.7 Distribution of the angle calculated by illumination direction of the test video
由第2节算法原理可知,检测区域和目标区域数量的选择是光照计算过程中的两个重要步骤,会直接影响光照方向的计算结果,因此本节通过实验对检测区域和目标区域数量的选择做进一步探究。
为了测试不同大小的人脸区域对光照计算结果的影响,实验分别选择整帧区域、包含部分背景的人脸区域和人脸区域作为候选区域(分别记为类别1、类别2和类别3),然后计算真实视频和其对应换脸视频在不同候选区域中光照方向角度的分布,选择在上述两个视频中分布差异最大的候选区域作为检测区域,最后统计多段视频的概率分布情况。的选取可由
(8) |
式中:和分别表示在检测区域为时真实视频和其对应换脸视频光照方向的角度分布对应的标准差,表示的差值绝对值。
实验通过TIMIT数据库中200对原始视频和其对应的换脸视频给出的。结果如

图8 不同检测区域的概率分布
Fig.8 Probability distribution with different detection areas
首先通过一对帧长为98的真实视频和换脸视频给出目标区域数量为3,4,5时的光照方向结果,这里M=8。
结果如

图9 不同目标区域数量时真实视频和换脸视频光照方向的比较
Fig.9 Comparison of the illumination direction angle between the real video and its corresponding fake video with different numbers of target areas
为了选择合适的目标区域数量,实验计算真实视频和其对应的换脸视频在目标区域数量取不同值时光照方向的角度分布,然后选择使得真实视频和换脸视频光照方向的角度分布差异最大的目标区域数量,最后统计多段视频分布情况。的选取由
(9) |
式中:和分别表示在目标区域数量为N时真实视频和其对应换脸视频光照方向角度分布的标准差;表示的差值绝对值。
实验通过TIMIT数据库中200对原始视频和其对应的换脸视频给出的。结果如

图10 不同目标区域数量的概率分布
Fig.10 Probability distribution with different numbers of target areas
实验测试的硬件环境为Windows 10操作系统,CPU为Inter(R) Core(TM) i7⁃7700,主频3.60 GHz,内存16.0 GB;算法仿真平台为MATLAB 2017a;测试数据库为TIMIT数据
本节首先从TIMIT数据库(HQ视频部分)和FaceForensic

图11 TIMIT数据库中faks0_si943真实视频和其对应换脸视频光照方向的角度分布
Fig.11 Distribution of illumination direction angle in the real video faks0_si943 and its corresponding fake video in TIMIT database

图12 FaceForensic
Fig.12 Distribution of illumination direction angle in the real video 135_880 and its corresponding fake video in FaceForensic
为了进一步验证算法的有效性,实验对TIMIT数据库(包括HQ视频和LQ视频两部分)和FaceForensic

图13 TIMIT数据库的统计分析结果
Fig.13 Statistical analysis of TIMIT database

图14 FaceForensic
Fig.14 Statistical analysis of FaceForensic
为了研究本文算法的性能,实验分别选择TIMIT数据库(包括HQ视频和LQ视频两部分)和FaceForensic

图15 算法ROC曲线
Fig.15 ROC curves of the algorithm
(1)FaceForensic
(2)TIMIT数据库中LQ换脸视频的视频质量更低,帧图像的纹理更模糊,无法准确反映视频的光照方向,导致换脸视频光照方向的一致性变得更差,有利于本文算法的检测,因此算法在TIMIT数据库中LQ视频部分的检测性能要优于HQ视频部分。
为了进一步验证本文算法性能,选取文献[
由于本文算法不需要预先训练检测模型,其计算复杂度主要集中在计算待测视频帧图像的二维光照方向这一步骤,而算法所使用的Lambert光照模型是一种较为简单的单光源漫反射模型,因此本文算法具有较低的计算复杂度,实时性好。如
针对现有深度网络换脸视频篡改检测算法存在计算复杂度较高、通用性不够好以及未充分考虑视频时域特征的问题,提出一种基于光照方向一致性的换脸视频篡改检测方法。从视频成像的外部环境条件出发,利用待检测视频帧图像序列光照方向一致性进行检测,具有计算复杂度低,通用性好的特点,在公开数据库中的测试结果证明了算法的有效性。下一步的工作可考虑使用更加精确的光照模型计算视频帧图像的光照方向。
参考文献
KORSHUNOVA I, SHI W, DAMBRE J, et al. Fast face-swap using convolutional neural networks[C]// Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 3697-3705. [百度学术]
BITOUK D, KUMAR N, DHILLON S, et al. Face swapping: Automatically replacing faces in photographs[J]. Proc Siggraph, 2008, 27(3): 1-8. [百度学术]
Impressions-video face swap App:Realistic face swap videos[EB/OL].(2020-02-15)[2020-04-05]. https://impressions.app/. [百度学术]
GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Proceedings of the 28th Conference on Neural Information Processing Systems. Montreal, Canada, 2004: 2672-2680. [百度学术]
高逸飞, 胡永健, 余泽琼, 等. 5种流行假脸视频检测网络性能分析和比较[J]. 应用科学学报, 2019, 37(5): 590-608. [百度学术]
GAO Yifei, HU Yongjian, YU Zeqiong, et al. Evaluation and comparison of five popular fake face detection networks[J]. Journal of Applied Sciences, 2019, 37(5): 590-608. [百度学术]
AFCHAR D, NOZICK V, YAMAGISHI J. Mesonet: A compact facial video forgery detection network[C]//Proceedings of IEEE International Workshop on Information Forensics and Security. Hong Kong, China: IEEE, 2018: 1-7. [百度学术]
BAYAR B, STAMM M C. Constrained convolutional neural networks: A new approach towards general purpose image manipulation detection[J]. IEEE Transactions on Information Forensics and Security, 2018, 13(11): 2691-2706. [百度学术]
TARIQ S, LEE S, KIM H, et al. Detecting both machine and human created fake face images in the wild[C]//Proceedings of ACM 2nd International Workshop on Multimedia Privacy and Security. Toronto, Canada: ACM, 2018: 81-87. [百度学术]
SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015: 1-9. [百度学术]
CHOLLET F. Xception: Deep learning with depthwise separable convolutions[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017: 1251-1258. [百度学术]
ZHOU P, HAN X, MORARIU V, et al. Two-Stream neural networks for tampered face detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu, USA: IEEE, 2017: 1831-1839. [百度学术]
YANG X, LI Y, LYU S. Exposing deep fakes using inconsistent head poses[C]//Proceedings of International Conference on Acoustics, Speech and Signal Processing. Brighton, UK: [百度学术]
[s.n.], 2019: 8261-8265. [百度学术]
MATERN F, RIESS C, STAMMINGER M. Exploiting visual artifacts to expose Deepfakes and face manipulations[C]//Proceedings of IEEE Winter Applications of Computer Vision Workshops. Hawaii, USA: IEEE, 2019: 83-92. [百度学术]
LI Y, CHANG M C, LYU S. In ICTU OCULI: Exposing AI created fake videos by detecting eye blinking[C]//Proceedings of IEEE International Workshop on Information Forensics and Security. Hong Kong, China: IEEE, 2018: 1-7. [百度学术]
PENG B, WANG W, DONG J. Optimized 3D lighting environment estimation for image forgery detection[J]. IEEE Transactions on Information Forensics and Security, 2016, 12(2): 479-494. [百度学术]
牛少彰, 黄艳丽, 孙晓婷. 投影与光照方向一致性的图像篡改检测[J]. 北京邮电大学学报, 2014, 37(5):61-65. [百度学术]
NIU Shaozhang, HUANG Yanli, SUN Xiaoting. Image tampering detection by consistency of projection and lighting direction[J]. Journal of Beijing University of Posts and Telecommunications, 2014, 37(5):61-65. [百度学术]
CARVALHO T, FARIA F A, Pedrini H. Illuminant-based transformed spaces for image forensics[J]. IEEE Transactions on Information Forensics and Security, 2015, 11(4): 720-733. [百度学术]
DE CARVALHO T J, RIESS C, ANGELOPOULOU E, et al. Exposing digital image forgeries by illumination color classification[J]. IEEE Transactions on Information Forensics and Security, 2013, 8(7): 1182-1194. [百度学术]
YI J, MAO X, CHEN L, et al. Illuminant direction estimation for a single image based on local region complexity analysis and average gray value[J]. Applied Optics, 2014, 53(2): 226-236. [百度学术]
YANG K F, GAO S B, LI Y J. Efficient illuminant estimation for color constancy using grey pixels[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015: 2254-2263. [百度学术]
KORSHUNOV P, MARCEL S. Deepfakes: A new threat to face recognition assessment and detection [EB/OL]. (2018-12-20)[2020-04-07].https://arxiv.org/abs/1812.08685. [百度学术]
RÖSSLER A, COZZOLINO D, VERDOLIVA L, et al. FaceForensic