Exploring Disentangled Content Information for Face Forgery Detection
date
Nov 7, 2022
Last edited time
Mar 27, 2023 08:44 AM
status
Published
slug
Exploring_Disentangled_Content_Information_for_Face_Forgery_Detection
tags
DL
CV
summary
type
Post
Field
Plat
IntroduceMethodEnhanced Independence of Disentangled FeaturesContent Consistency ConstraintGlobal Representation Contrastive ConstraintOverall LossExperimentAblation Study
Introduce
我们观察到,检测器更倾向于关注内容信息,而不是伪影特征,这表明检测器对数据集的内在偏差很敏感,这导致严重的过拟合。因此,我们设计了一个易于嵌入的内容信息解纠缠框架,并提出了内容一致性约束(C2C)和全局表示对比约束(GRCC)来增强解纠缠特征的独立性。
可视化(如图B所示)表明,检测器的提取的 Feature 仍然是可识别的内容线索,并且检测器容易过度拟合到小的局部区域,甚至只关注人脸区域以外的内容信息。因此,我们推测,检测器可能不再挖掘难以捕获的伪影特征,而是过度拟合某些非伪影特征(即内容),从而导致跨域评估时的准确率下降。
因此,我们提出了一种易于嵌入的内容特征和伪影特征解纠缠框架,只对解纠缠的伪影特征进行人脸伪造检测,从而忽略了内容信息的干扰。传统方法和我们的框架之间的简单比较如图 (A)所示。
然而,大多数解纠缠方法只考虑特征的完整性,而没有深入探讨解纠缠特征的独立性,这导致了人脸伪造检测的失败,如下表。为了增强它,我们提出了内容一致性约束(Content Consistency Constraint, C2C)来确保解纠缠特征包含相应的信息,并提出了全局表示对比约束(Global Representation contrast Constraint, GRCC)来进一步保证解纠缠特征的纯度。这有助于我们的解纠缠框架实现有竞争力的性能。
Method
考虑一个伪造的图像,它由伪影特征和内容信息组成,其中内容信息可以细分为身份信息和背景信息。伪造图像与真实图像的唯一区别是是否存在伪影痕迹,这是检测器判断真伪的基础。
该解纠缠框架主要由两个独立的编码器 和 组成,分别用于提取内容和伪影特征,解码器 用于图像重建,分类器 用于人脸伪造检测。其中,编码器 和内容编码器 具有相同的结构,但不共享参数。具体来说,如上图所示,成对输入图像 、,其中 、和 , 分别表示图像对应的工件和内容特征。其中一张图片是真的,另一张是假的。我们首先得到内容特征 , 和伪影特征 ,公式如下:
然后对两组图像的内容特征与伪影特征两两组合进行重建,得到:
进而计算图像重建损失与内容、分割重建损失:
Enhanced Independence of Disentangled Features
虽然重构损失可以保证特征的完整性,但对于内容特征和工件特征的结合。然而,仍有两个因素无法保证:
- 编码器是否能够选择性地对特征进行解纠缠(即解纠缠的特征是否包含相应的信息)。
- 解纠缠的特征是否只包含相应的信息。
成功解缠的关键在于建立这两个条件,这在后续的消融研究中得到了证实。遗憾的是,之前的相关方法都没有深入探讨特征的独立性。我们提出了一个内容一致性约束(C2C)和一个全局表示对比约束(GRCC)来进一步增强分离特征的独立性。
Content Consistency Constraint
在交叉重建中,内容特征应确定重建图像的背景和人脸ID信息。我们采用身份保留损失 和内容感知损失 来保留交叉重建图像的内容属性。它的表述如下:
其中 和 分别表示预训练的VGG网络和预训练的ArcFace网络,表示两个向量的余弦相似度。这里考虑 提取高级语义特征,由于工件主要集中在低级纹理细节中,因此提取的内容特征不包含伪影信息。
Global Representation Contrastive Constraint
工件特性和内容特性应该是两个基本不同的空间。换句话说,工件特征和内容特征可以看作是两个不同的类,类间的特征距离应该远远大于类内的特征距离。具体而言,我们将类内特征作为正对,将类间特征作为负对,并采用对比学习协议,进一步消除内容特征和工件特征可能的重叠。我们将内容和工件特征的Gram矩阵作为一个全局和独特的表示:
其中 为特征, 为特征的通道。对于特征距离的测量,我们采用余弦距离,越近的特征呈现越大的分数。最后,我们利用 InfoNCE 在工件和内容特征之间构建 Global Representation contrast Constraint (GRCC):
Overall Loss
那么总体的 loss 可以写出为:
Experiment
Ablation Study
简单引入解纠缠框架,人脸伪造检测的性能不仅没有提高,反而降低了0.81%。此外,我们分别添加了内容一致性约束(C2C)和全局表示对比约束(GRCC),提高了4.97%和7.46%