Generalizing Face Forgery Detection with High-frequency Features 论文阅读
date
Jan 6, 2023
Last edited time
Mar 27, 2023 08:38 AM
status
Published
slug
Generalizing_Face_Forgery_Detection_with_High-frequency_Features论文阅读
tags
DL
CV
summary
type
Post
Field
Plat
AbstractAnalysisWhy current methods fail to generalize?What is common in forged face images?SRM NoiseMethodMulti-scale High-frequency Feature ExtractionResidual Guided Spatial AttentionDual Cross-modality AttentionExperimentsResultAblation Study
Abstract
- Problem
当前的人脸伪造检测方法在训练和测试伪造由相同算法合成的数据库内场景下实现了高精度。然而,在训练和测试伪造由不同算法合成的跨数据库场景下,很少能够获得令人满意的性能。
人脸伪造检测的泛化性问题是由于不同操作技术产生的数据分布多样化,具有高数据库内检测精度的方法在跨数据库场景中总是会出现严重的性能下降,从而限制了更广泛的应用。
- Analysis
我们发现当前基于 CNN 的检测器倾向于过度拟合特定于方法的颜色纹理,因此无法泛化。观察到高频噪声可以抑制图像纹理并暴露篡改区域和真实区域之间的统计差异,我们建议利用噪声来解决过度拟合问题。
- Method
- 首先是多尺度高频特征提取模块。我们采用 SRM 中广泛使用的高通滤波器来从图像中提取高频噪声。
- 同时使用高频噪声和低频纹理(RGB),我们构建了一个双流网络来处理两种模式。
- 应用 residual guided spatial attention,引导 RGB 模态更加重视伪造痕迹。
- 设计了一个双重跨模式注意模块来制定两种模式之间的交互,而不是让它们保持独立。
Analysis
Why current methods fail to generalize?
现有的模型泛化能力差的原因是那些深度 CNN 模型学会了捕捉方法特定的纹理模式以进行伪造检测。Geirhos 等人研究了 CNN 的纹理响应,表明 CNN 模型强烈偏向于纹理。不同的伪造算法总是具有独特的网络架构和处理流,因此不同算法处理的图像将具有不同的伪造纹理。因此,已经偏向于一种假纹理的 CNN 模型很难泛化到另一种。
What is common in forged face images?
如图 3 所示,操作过程大致可分为两个处理阶段,即假脸创建和人脸混合。
尽管对输出图像中的面部区域进行了操作,但背景仍与源图像中的相同(见图 3)。假设不同的图像具有独特的特征,而混合阶段违反了原始数据分布,我们可以利用这些特征差异来进行能够泛化的伪造检测。
SRM Noise
我们假设一个可推广的伪造检测器应该:
- 不仅要注意与纹理相关的特征,还要注意与纹理无关的特征。
- 能够发现被篡改的人脸和原始背景之间的差异。
观察到图像的高频噪声在刻画内在特征的同时去除了颜色内容,我们尝试利用图像噪声进行人脸伪造检测。由不同设备处理或来自不同来源的图像具有不同的噪声模式。噪声可以被视为图像的内在特性,并且可以在所有数字图像领域中以各种形式找到。
受 SRM 噪声特征在一般图像处理检测上的最新进展的启发,我们采用 SRM 滤波器来处理噪声。具有 SRM 噪声的模型比具有常规颜色纹理的模型具有更好的泛化能力,尤其是在 FS 和 NT 方法上。
Method
Multi-scale High-frequency Feature Extraction
我们将高通滤波器应用于多个低级特征图以丰富高频特征。给定输入 RGB 图像 ,我们利用 SRM 滤波器将其转换为高频域中的残差图像 。
为了提取更多高频信息,然后我们在 上应用 SRM 滤波器,然后进行 1×1 卷积以对齐通道维度并获得输出 。我们对 以及 和 的和进行下采样,然后分别得到 和 。重复上述操作,最终得到多尺度高频特征图 与 RGB 特征图 。
Residual Guided Spatial Attention
Dual Cross-modality Attention
我们设计了一个双跨模态注意模块 (DCMA) 来捕获远程依赖并对低频纹理和高频噪声之间的交互进行建模。
请注意,key 组件是通过两层卷积块获得的。我们独立设置第一层,同时共享第二层,将两种模态的特征映射投影到同一空间。