End-to-End Reconstruction-Classification Learning for Face Forgery Detection 论文阅读
date
Nov 13, 2022
Last edited time
Mar 28, 2023 08:04 AM
status
Published
slug
End-to-End_Reconstruction-Classification_Learning_for_Face_Forgery_Detection论文阅读
tags
DL
CV
summary
type
Post
Field
Plat
IntroduceMethodReconstruction LearningMulti-scale Graph ReasoningReconstruction Guided AttentionExperimentsAblation Study
Introduce
在本文中,我们提出了一种伪造检测框架,该框架的学习重建真实面部的常见分布。对真实图像的重建学习增强了学习的表示,以了解甚至未知的伪造模式,而分类学习负责挖掘真实图像和伪造图像之间的本质差异,促进对伪造的理解。
![我们仅对真实样本进行重建学习,以学习真实面部图像的常见紧凑表示(左)。通过学习表示,真假人脸的重建差异在分布上存在显着差异(右),这有助于伪造检测。](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F8aa79c60-4bbc-4f5e-a5ae-b6c54f66821e%2FUntitled.png?table=block&id=ba7a3cd5-cddc-40f5-b644-0434b80396fd&cache=v2)
对于重建学习,我们提出了一个重建网络,它由一个编码器和一个解码器组成,仅对真实人脸的分布进行建模。除了重建损失之外,我们在解码器上应用度量学习损失,以使真实图像在嵌入空间中接近,而真实图像和假图像远离。
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F55321919-dcd1-40f4-aaa9-f6814a047387%2FUntitled.png?table=block&id=e2fdfa35-e7ba-490f-82b3-78ba8dcd8b07&cache=v2)
Method
为了捕捉真人脸和假人脸之间的本质差异,我们设计了一个名为 RECCE 的新框架,该框架由三个主要模块组成,即重建学习、多尺度图推理和重建引导注意。
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F2984b2dc-572d-4a4b-923a-b51d026afcf3%2FUntitled.png?table=block&id=1802fd31-4d4d-4905-a904-aa80e0a286e5&cache=v2)
Reconstruction Learning
由于伪造人脸的方法总是多种多样的,我们认为探索真实人脸的共同特征比过度拟合训练集中呈现的特定伪造模式更适合。因此,我们建议进行重建学习,只恢复真实的面部图像。具体来说,给定一个输入图像 ,我们训练了一个基于编码器结构的重构网络 。
由于先前的研究已经证明,用于恢复原始输入的普通重建不会显著改善学习的表示,我们在输入样本中添加了一些白噪声得到 ,目的是学习真实人脸的鲁棒表示。因此,图像重建过程可表述为:
人脸的重建损失为:
Preservational Learning Improves Self-Supervised Medical Image Models by Reconstructing Diverse Contexts
除了重建差异外,我们还利用度量学习损失使真实图像在嵌入空间中接近,而真实和虚假图像在嵌入空间中远离。
其中 表示真实样本和假样本的集合。 和 分别是(真、真)对和(真、假)对的总数。 是一个基于余弦距离的对偶距离函数:
Multi-scale Graph Reasoning
在将度量学习损失应用于解码器时,解码器中还嵌入了用于分离真伪图像的有用信息。为了有效地利用解码器特征捕捉到的伪造线索进行最终分类,我们提出了一个多尺度图推理(MGR)模块,该模块将解码器块的潜在特征和编码器输出结合成一个 bipartite graph,用于对伪造线索进行综合推理。
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F0aeecb1d-31ce-4469-b03a-0c1af5db5675%2FUntitled.png?table=block&id=09bab8f3-9b4c-44c6-b819-6e6e72f191ba&cache=v2)
and 是两个神经网络,将 投影到共同的共享嵌入空间中。我们首先将来自两个子图的顶点连接起来,然后通过单层网络 得到 :
表示连接操作。然后,我们使用非线性变换 计算一个[0,1]值向量,来衡量生成通道级别上的 的特征信息重要性。
Reconstruction Guided Attention
在重建网络的约束下,重建的伪造人脸在视觉外观上与输入的伪造人脸有很大不同。这促使我们使用重建差异来指示可能被操纵的痕迹。
给定重建图像 和原始图像 ,我们首先计算它们在像素级上的差异,得到差异掩码 为
是上一个模块的输出结果, 是两个卷积操作。为简单起见,我们省略了这些张量的空间大小,并使用双线性插值来适当地保持上述操作的空间大小。
Experiments
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2Fc165e324-495c-4bf4-9afd-c338d430f324%2FUntitled.png?table=block&id=cd5f308e-2903-4b2c-9784-0951cf527cbc&cache=v2)
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F93ab15db-a618-4184-be61-2ac5ecdf1f69%2FUntitled.png?table=block&id=b7159eb2-e6c1-4b9b-991b-b551fd6e4cbc&cache=v2)
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F5205e26a-9c90-4596-8004-bab4ee0c9706%2FUntitled.png?table=block&id=12ec1e99-bfb2-4a28-b37e-98000398dffb&cache=v2)
Ablation Study
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2Fd5ca5770-0666-4701-9e54-699ee8bff4ce%2FUntitled.png?table=block&id=2e967807-cc31-4ba1-baa3-8d5b73ce7632&cache=v2)