End-to-End Reconstruction-Classification Learning for Face Forgery Detection 论文阅读

date

Nov 13, 2022

Last edited time

Mar 28, 2023 08:04 AM

status

Published

slug

End-to-End_Reconstruction-Classification_Learning_for_Face_Forgery_Detection论文阅读

tags

summary

type

Post

origin

https://www.notion.so/lazurite/End-to-End-Reconstruction-Classification-Learning-for-Face-Forgery-Detection-6c4f7fa74c5943959a6acac5b21b2efb

Field

Plat

End-to-End Reconstruction-Classification Learning for Face Forgery Detection

Existing face forgery detectors mainly focus on specific forgery patterns like noise characteristics, local textures, or frequency statistics for forgery detection. This causes specialization of learned representations to known forgery patterns presented in the training set, and makes it difficult to detect forgeries with unknown patterns.

https://ieeexplore.ieee.org/iel7/9878378/9878366/09878441.pdf

Cao_End-to-End_Reconstruction-Classification_Learning_for_Face_Forgery_Detection_CVPR_2022_paper.pdf

2864.7KB

GitHub - VISION-SJTU/RECCE: [CVPR2022] End-to-End Reconstruction-Classification Learning for Face Forgery Detection

📄 End-to-End Reconstruction-Classification Learning for Face Forgery Detection 👦 Junyi Cao, Chao Ma, Taiping Yao, Shen Chen, Shouhong Ding, Xiaokang Yang Please consider citing our paper if you find it interesting or helpful to your research.

https://github.com/VISION-SJTU/RECCE

Introduce Method Reconstruction Learning Multi-scale Graph Reasoning Reconstruction Guided Attention Experiments Ablation Study

Introduce

在本文中，我们提出了一种伪造检测框架，该框架的学习重建真实面部的常见分布。对真实图像的重建学习增强了学习的表示，以了解甚至未知的伪造模式，而分类学习负责挖掘真实图像和伪造图像之间的本质差异，促进对伪造的理解。

我们仅对真实样本进行重建学习，以学习真实面部图像的常见紧凑表示（左）。通过学习表示，真假人脸的重建差异在分布上存在显着差异（右），这有助于伪造检测。

对于重建学习，我们提出了一个重建网络，它由一个编码器和一个解码器组成，仅对真实人脸的分布进行建模。除了重建损失之外，我们在解码器上应用度量学习损失，以使真实图像在嵌入空间中接近，而真实图像和假图像远离。

Method

为了捕捉真人脸和假人脸之间的本质差异，我们设计了一个名为 RECCE 的新框架，该框架由三个主要模块组成，即重建学习、多尺度图推理和重建引导注意。

Reconstruction Learning

由于伪造人脸的方法总是多种多样的，我们认为探索真实人脸的共同特征比过度拟合训练集中呈现的特定伪造模式更适合。因此，我们建议进行重建学习，只恢复真实的面部图像。具体来说，给定一个输入图像，我们训练了一个基于编码器结构的重构网络。

由于先前的研究已经证明，用于恢复原始输入的普通重建不会显著改善学习的表示，我们在输入样本中添加了一些白噪声得到，目的是学习真实人脸的鲁棒表示。因此，图像重建过程可表述为:

人脸的重建损失为：

💡

Preservational Learning Improves Self-Supervised Medical Image Models by Reconstructing Diverse Contexts

Preservational Learning Improves Self-supervised Medical Image Models by Reconstructing Diverse Contexts

Preserving maximal information is one of principles of designing self-supervised learning methodologies. To reach this goal, contrastive learning adopts an implicit way which is contrasting image pairs. However, we believe it is not fully optimal to simply use the contrastive estimation for preservation.

https://arxiv.org/abs/2109.04379

除了重建差异外，我们还利用度量学习损失使真实图像在嵌入空间中接近，而真实和虚假图像在嵌入空间中远离。

其中表示真实样本和假样本的集合。和分别是(真、真)对和(真、假)对的总数。是一个基于余弦距离的对偶距离函数:

Multi-scale Graph Reasoning

在将度量学习损失应用于解码器时，解码器中还嵌入了用于分离真伪图像的有用信息。为了有效地利用解码器特征捕捉到的伪造线索进行最终分类，我们提出了一个多尺度图推理(MGR)模块，该模块将解码器块的潜在特征和编码器输出结合成一个 bipartite graph，用于对伪造线索进行综合推理。

and 是两个神经网络，将投影到共同的共享嵌入空间中。我们首先将来自两个子图的顶点连接起来，然后通过单层网络得到 :

表示连接操作。然后，我们使用非线性变换计算一个[0,1]值向量，来衡量生成通道级别上的的特征信息重要性。

Reconstruction Guided Attention

在重建网络的约束下，重建的伪造人脸在视觉外观上与输入的伪造人脸有很大不同。这促使我们使用重建差异来指示可能被操纵的痕迹。

给定重建图像和原始图像，我们首先计算它们在像素级上的差异，得到差异掩码为

是上一个模块的输出结果，是两个卷积操作。为简单起见，我们省略了这些张量的空间大小，并使用双线性插值来适当地保持上述操作的空间大小。