DeepFake Papers - Part 1
date
Nov 22, 2023
Last edited time
Nov 22, 2023 03:34 PM
status
Published
slug
DeepFake Papers - Part 1
tags
DeepFake
summary
之前看的论文,整理了一下
type
Post
origin
Field
DL
Plat
(CVPR2018)ForensicTransfer: Weakly-supervised Domain Adaptation for Forgery Detection(CVPR2020)Detecting CNN-Generated Facial Images in Real-World Scenarios(CVPR2020-GramNet)Global Texture Enhancement for Fake Face Detection in the Wild(CVPR2020) Watch your Up-Convolution: CNN Based Generative Deep Neural Networks are Failing to Reproduce Spectral Distributions(ICML2020-GANDCTAnalysis) Leveraging Frequency Analysis for Deep Fake Image Recognition(ICML2020) T-GD: Transferable GAN-generated Images Detection Framework (ICME2021-GanImageDetection) ARE GAN GENERATED IMAGES EASY TO DETECT? A CRITICAL ANALYSIS OF THE STATE-OF-THE-ART(IJCAI2021) Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis (AAAI2022) FrePGAN: Robust Deepfake Detection Using Frequency-level Perturbations(AAAI2022) Exploiting Fine-grained Face Forgery Clues via Progressive Enhancement Learning (ECCV2022) FingerprintNet: Synthesized Fingerprints for Generated Image Detection (ECCV2022) Discovering Transferable Forensic Features for CNN-generated Images Detection (WACV2022) BiHPF: Bilateral High-Pass Filters for Robust Deepfake Detection(ICME2023) General GAN-generated Image Detection by Data Augmentation in Fingerprint Domain (CVPR2023) Learning on Gradients: Generalized Artifacts Representation for GAN-Generated Images Detection (CVPR2023-UniversalFakeDetection) Towards Universal Fake Image Detectors that Generalize Across Generative Models (IJCAI2023)Towards Robust GAN-generated Image Detection: a Multi-view Completion Representation(TMM2023-GRNet)Exposing Deepfake Face Forgeries with Guided Residuals
(CVPR2018)ForensicTransfer: Weakly-supervised Domain Adaptation for Forgery Detection
鉴别经过操作的图像与真实图像的区别正变得越来越困难,因为新的复杂图像伪造方法日益涌现。基于卷积神经网络(CNNs)的传统分类方法,在特定伪造方法上训练时对检测图像伪造表现出极佳性能。然而,在来自未曾见过的伪造方法的示例中,其性能显著下降。为了解决这种迁移性的限制,我们引入了ForensicTransfer(FT)方法。我们设计了一个基于学习的鉴证检测器,能够适应新领域,即新的伪造方法,并且能够处理在训练过程中只有少数假例可用的情况。为此,我们学习了一个基于新型自编码器架构的鉴证嵌入,用于区分真实和伪造的图像。所学习的嵌入可以作为异常检测器的一种形式;也就是说,如果来自未曾见过的方法的图像被操作过,只要它的映射足够远离真实图像聚类,就会被检测为伪造。

(CVPR2020)Detecting CNN-Generated Facial Images in Real-World Scenarios
这篇实验主要比较了在不同场景下,Xception和ForensicTransfer的性能差异。
本文测试的预处理方法包括:
- Res1是一个一阶导数滤波器,用于高通滤波,水平和垂直方向并行应用,并将结果通道连接起来,共得到6个图像通道。
- Res3是一个三阶导数滤波器,也用于高通滤波,与Res1类似。
- Cooc计算输入图像的共生矩阵,通过原始图像与其转置的矩阵乘法得到,得到三个图像通道。
- HSV将图像转换为色调、饱和度、值(HSV)颜色空间,得到三个图像通道。



基于我们的算法实验,我们得出的结论是,在最简单(默认)的场景中的性能无法很好地推广到其他评估场景。ForensicTransfer在跨模型性能上更为强大,而Xception在后处理性能上更为强大。不幸的是,没有一种单一的预处理类型能够提高多种场景下的性能,并且在一个评估设置中的性能提高往往伴随着其他设置中的性能下降。此外,预处理方法的效益不能保证适用于两种模型;即,高通滤波器对于ForensicTransfer比对于Xception效果更好。我们的结果强调了评估多个场景的重要性。
(CVPR2020-GramNet)Global Texture Enhancement for Fake Face Detection in the Wild
在本文中,我们进行了实证研究,对假人脸和真实人脸进行了比较,并得出了两个重要观察结果:首先,假人脸的纹理与真实人脸明显不同;其次,全局纹理统计更具鲁棒性,可用于不同GAN和数据集生成的假人脸。受到以上观察结果的启发,我们提出了一种名为Gram-Net的新架构,该架构利用全局图像纹理表示进行假图像检测。在几个数据集上的实验结果表明,我们的Gram-Net超过了现有方法。特别是,我们的Gram-Net对图像编辑更具鲁棒性,如降采样、JPEG压缩、模糊和噪声。更重要的是,在检测训练阶段未见过的GAN模型生成的假人脸方面,我们的Gram-Net具有明显更好的泛化性能,并且在检测假的自然图像方面表现良好。
我们使用一种纹理分析工具——灰度共生矩阵(GLCM),通过测量距离来比较真实脸部和假脸之间的对比度。我们发现,真实脸部在所有测量距离上都展现出比假脸更强烈的对比度。这种现象可以解释为基于CNN的生成器通常会将附近像素的值相关联,而无法生成与真实数据一样强的纹理对比度。


Gram-Net的概述如图所示。在ResNet架构的输入图像以及每个下采样层之前,添加了Gram块,以不同的语义层次融入全局图像纹理信息。
每个Gram块由以下组件组成:一个卷积层,用于对不同层次的特征维度进行对齐;一个Gram矩阵计算层,用于提取全局图像纹理特征;两个卷积-批归一化-ReLU层,用于细化表示;以及一个全局池化层,将Gram样式特征与ResNet骨干特征对齐。Gram矩阵的计算如下所示: 其中, 表示第 个特征图,其空间维度已转化为向量形式,而 表示第 层中第 个特征图中第 个元素。我们证明了Gram矩阵可以作为全局或长程纹理的良好描述符。


(CVPR2020) Watch your Up-Convolution: CNN Based Generative Deep Neural Networks are Failing to Reproduce Spectral Distributions
为了解决常见的上采样方法,即所谓 的“上卷积”或“转置卷积”,导致这类模型无法正确 复现自然训练数据的频谱分布,我们提出在训练 优化目标中添加一项新的频谱正则化项。


(ICML2020-GANDCTAnalysis) Leveraging Frequency Analysis for Deep Fake Image Recognition
一篇经典的通过DCT变换检测DeepFake的文章。

(ICML2020) T-GD: Transferable GAN-generated Images Detection Framework
在本文中,我们提出了一种名为Transferable GAN图像检测框架(T-GD)的健壮可转移框架,用于有效检测GAN图像。T-GD由一教一学模型组成,可以相互教导和评估以提高检测性能。首先,我们在源数据集上训练教师模型,并将其用作学习目标数据集的起点。为了训练学生模型,我们通过混合源数据集和目标数据集注入噪声,同时限制权重变化以保留起点。我们的方法是一种自训练方法,但与以前的方法不同之处在于专注于改善GAN图像检测的可转移性。

没太写明白, 以及看明白。
总结
目前看到的方法对于频域信息进行解耦的方式可以分为以下几类:
- FrePGAN 使用一个GAN来生成伪造图像的频域指纹, 然后添加到真实图像上, 这样让分类器输入的图像都带有频域指纹. 值得注意的是: FrePGan将带有频域指纹的Rea还视为Real. 而 FingerprintNet 训练一个 认为从原始图像生成的图像为 Fake. 这两者并不一致.
这就有个问题, DS=0.01算不算fake
, 那DS=0.02, DS=0.1, DS=0.5哪里开始算fake?
Baseline ds=0.01视为Real, 效果很差很差.- Beyond the Spectrum 用另外一个生成模型来盖住频域指纹, 然后使用像素残差或者感知网络的残差作为输入. 如 Grad, 图像重建
- 使用预训练的去噪模型, 去除指纹信息: 如 CycleISP. (ECCV2022-Detecting Generated Images by Real Images)
- 做后处理, 如下采样,
- 使用预训练的特征提取器: CLIP
- 使用双流网络的特征融合? 要不要 Deep Supervised? 还是分别监督?
可以使用的类似做法
可用的输入: Real图, Ds较小的Real图(记为A-Real), Fake图, 以及 A-Fake
- 训练一个 A-Real 到 Real 的图像级别/特征级别的转换模型
- 图像级别
- 特征级别
训练一个AutoEncoder, 训练 A-Real → Real.
假设添加 A-Real 训练的模型, 拟合的是去噪痕迹. 那么训练一个 AE(或者残差方式)来去除这个痕迹, 再训练SpacialModel
问题注: FakeFeatue 不能更新 Cvt
- 使用预训练的生成模型(也容易实现)
- 使用 CLIP - 最简单的(因为有代码)
(ICME2021-GanImageDetection) ARE GAN GENERATED IMAGES EASY TO DETECT? A CRITICAL ANALYSIS OF THE STATE-OF-THE-ART

我们展示了基线和所有不同 GAN 架构的最佳变体的结果。我们还考虑了最佳变体的新版本,该版本在 23 个 StyleGAN2 模型上进行了训练。在架构的第一个块中避免下采样可以提供约15%的平均准确率提升和14%的Pd@5%提升。无论采用什幺类型的架构结构,整机准确率始终在90%以上,如果在StyleGAN2上进行训练,则实验进一步提高(超过97%)。尽管这些非常有限且初步,它们为未来的研究提供了一些有趣的线索。
没意思,就是说把 Resnet 的第一层的下采样去掉,这样检测效果会更好。但问题是,这样显著增加了计算量。
(IJCAI2021) Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis
过去的工作主要依靠识别生成图像中的频率伪影来检测Deepfakes,但随着生成模型的不断发展和与真实图像之间差距的缩小,这种方法将无法持续有效。为了克服这个问题,本文通过重新合成测试图像并提取视觉线索来检测Deepfakes。

做法与DIRE非常相似, 都是使用重建误差送入分类器进行分类. 但是与 DIRE 相反的是,该文章观察到的特点为:

我们观察到:(1) 伪造图像的伪影幅度大于真实图像,在区分真假图像方面奠定了基础。 特别是在头发、 眼睛或嘴巴上存在更严重的伪影, 这 与最近关于伪造检测的普遍性研究结果一致 [Chai et al., 2020]。(2) 真假图像的伪影结构有所区别, 真实 图像的分布看起来更加随机, 而伪造图像的分布则显示出更强的规律性。(3)与像素伪影相比,感知网络的 stage5 伪影更具有区分能力,即使是在相同数据集上训练的 ProGAN 和 StyleGAN 之间也能进行跨生成对抗网 络(GAN)的伪造检测。

为了克服生成器中已知的频率伪影并提供未知的检测场景,我们应用频谱正则化(+R) [Durall et al., 2020] 和频谱感知对抗训练 (+A) [Jung and Keuper, 2021] 对已发布的GAN进行微调,Figure 5显示了一些示例。此外,我们还应用频谱均衡(+E),它与正则化类似,但我们将虚假图像作为后处理进行处理。
使用这种方式在跨域检测方面也表现出良好的效果, 并且对于在应用频谱处理或在不同领域测试时, 性能下降几乎是不可察觉的。
(AAAI2022) FrePGAN: Robust Deepfake Detection Using Frequency-level Perturbations
本研究的动机是解决深度伪造检测器在训练设置之外的未知类别或GAN模型上的过拟合问题。通过分析发现,生成图像中的频率级伪影是导致过拟合的原因。因此,我们设计了一个框架,通过生成频率级扰动地图,使生成的图像在频率级别上与真实图像难以区分,从而提高检测器在各种GAN模型上的泛化能力。
忽略频率级伪影可以提高检测器在各种 GAN 模型中的泛化能力,但它可能会降低经过训练的 GAN 模型的模型性能。

FrePGAN 为 Deepfake 检测器生成频率级扰动图 ,以忽略频率级伪影。为了减少频率级伪影的影响,真实图像和假图像分别添加了 FrePGAN 生成的扰动图。


(AAAI2022) Exploiting Fine-grained Face Forgery Clues via Progressive Enhancement Learning
为了充分利用RGB图像和细粒度频率分量,我们设计了一个两流网络结构,并引入了两个新颖的增强模块,逐步增强伪造线索。

一个是增强模块。基于空间噪声增强和通道通道分别在不同的输入空间中捕捉痕迹。另一个是相互增强模块,它通过在共享空间维度中的特征交流来同时增强RGB和频率分支。

(ECCV2022) FingerprintNet: Synthesized Fingerprints for Generated Image Detection


自己训练了一个多层级的VAE来生成 G(x),然后构建出新数据集。
Ablation

Mixup 指的是使用 mixup 方式替代本方法。
然后,我们将而不是整个层馈送到第个反卷积层中,以估计。我们将大于的索引对应的卷积和反卷积层的特征图设为零。由于第个卷积和反卷积层具有相同的分辨率和通道大小,即使在随机层选择之后,我们仍然可以使用相同的权重参数。因此,尽管指纹生成器的原始架构保持不变,上采样操作的数量可以变化,从而泛化重构图像中指纹的外观。
multi Kernel为使用不同大小的上采样卷积核。
Mixed batch不使用原始图像进行训练,而是使用mixup后的图像。
Feat Blender:由于指纹的幅度可能取决于输入图像,特征融合器通过混合和来增加训练样本。。
Mixed Batch 方法可以参考。
(ECCV2022) Discovering Transferable Forensic Features for CNN-generated Images Detection
这项工作的动机是一句深刻而具有挑战性的论题:通用检测器用了哪 些可转移取证特征(T-FF)来检测伪造品?
我们提出了一种新颖的法医特征相关统计量(FF-RS),用于量化和发现通用探测器的T-FF。使用我们提出的FF-RS,我们成功地在公开发布的ResNet50通用探测器中发现了T-FF。接下来,为了理解发现的T-FF,我们引入了一种基于最大空间层相关传播响应 (LRP-max) 的新型像素解释方法。通过对T-FF进行大规模研究,我们揭示了颜色信息对跨模型法医转移至关重要。进一步通过中位数冒牌概率分析和基于颜色消融的最大空间激活分布的统计检验的大规模定量研究表明,颜色是通用探测器中的一个关键T-FF。
(WACV2022) BiHPF: Bilateral High-Pass Filters for Robust Deepfake Detection

Motivation

首先,我们通过训练一个伪影压缩网络获得了一个Artifact Compression Map,用于将虚假图像转换为真实图像。我们发现该Map主要压缩了高频成分。经过分析,我们确认了压缩伪影主要出现在高频成分中。
使用训练好的网络,我们可以通过两种方式预测测试图像:第一种方式是使用原始图像进行传统预测方法,第二种方式是使用附加模块生成的压缩图像进行压缩预测方法。第一种方式会考虑伪影和内容信息,而第二种方式无法利用压缩伪影。第一种原始方案比第二种压缩方案在跨领域性能方面表现更好,这验证了压缩伪影可以在未知领域中被发现。因此,可以确认压缩伪影通常出现在虚假图像中,这是提高跨领域性能的关键因素。

通过训练后的压缩映射,我们确认伪造图像的伪迹主要出现在高频成分和像素级别图像的背景区域。基于这些发现,我们提出了双边高通滤波器(BiHPF)以突出伪造图像中的伪迹效果。BiHPF包含两个高通滤波器(HPF),分别是像素级别的高通滤波器和频率级别的高通滤波器。像素级别的高通滤波器突出显示出现在背景附近的伪迹,而频率级别的高通滤波器强调了伪迹所在的高频成分,以实现对伪造图像的稳健检测。
像素级别的高通滤波器使用频率域高斯拉普拉斯 (LoG) 滤波器。LoG滤波器的方差 为0.01。频率域高通滤波器用于压缩幅度谱图中的低频成分,理想高通滤波器的截止频率 设置为40。
Experiments


Ablation
我们还通过从我们的机制中删除像素级高通滤波 (L) 和频率级高通滤波 (F) 中的一个或两个,来比较它们的效果。表 6 展示了相对于其他用于检测假图像的算法,我们的机制可以提高跨领域性能的结果。
频率级高通滤波器(HPF)比像素级高通滤波器在性能上有更大的改进,这表明排除低频成分以强调伪影效果的重要性。



(ICME2023) General GAN-generated Image Detection by Data Augmentation in Fingerprint Domain

认为原图-VAE(原图)可以得到指纹, 然后对指纹进行数据增强, 添加到VAE后的图像上, 进行训练

(CVPR2023) Learning on Gradients: Generalized Artifacts Representation for GAN-Generated Images Detection
本研究提出了一种新的检测框架,名为“Learning on Gradients (LGrad)” 。该框架通过使用预训练的CNN模型将图像转换为梯度来利用梯度作为广义表示。转换模型突出显示转换的关键像素,过滤掉大部分图像内容。从转换模型获得的梯度作为伪影表示。在训练阶段,使用归一化的梯度训练二元分类网络,以区分GAN生成的图像和真实图像。网络使用交叉熵损失函数进行优化。在推理阶段,使用相同的转换模型将测试图像转换为梯度,并将其输入训练好的分类网络以获得最终结果。

(CVPR2023-UniversalFakeDetection) Towards Universal Fake Image Detectors that Generalize Across Generative Models

通过利用大规模预训练的视觉-语言模型的特征空间,实现了在各种生成模型生成的假图像检测方面的出色泛化能力。

CLIP 的效果比在 ImageNet 上预训练的好。实际上,这个模型的效果并不好。
(IJCAI2023)Towards Robust GAN-generated Image Detection: a Multi-view Completion Representation

- Motivation

虽然一些现有的检测器在检测干净的、已知的GAN样本方面表现出色,但它们的成功主要归因于对不稳定特征(如频率伪影)的过度拟合,这可能导致在面对未知GAN或扰动攻击时失效。
我们提出了一种基于新颖的多视图图像补全表示的鲁棒检测框架。该框架首先通过学习各种视图到图像的任务,对真实图像的多样分布进行建模。无关频率的特征可以通过补全模型所表征的分布差异来表示,这些特征对于检测未知的伪造模式是稳定、泛化和鲁棒的。然后,我们设计了一种多视图分类方法,其中包含详细的视图内和视图间学习策略,以增强视图特定的特征表示和跨视图特征聚合。
- Method
该框架同时训练一组修复器和分类器。修复器仅使用真实图像进行训练,每个修复器可以从特定的不完整视角重构完整图像。然后,真实图像和假图像都通过相同的视角到图像的处理过程进行处理。由于缺失信息的恢复仅由真实图像的特征所支配,重建的真实和假样本之间的分布差异可以在恢复的信息中反映出来。然后,针对每个视角,基于重建样本训练分类器以捕捉视角特定的分布差异。我们将每个修复器不同解码层编码的多尺度特征与重建图像一起作为分类器的输入。在分类器的入口处使用了低通残差引导的注意力模块,以突出真实和假图像之间的重建差异。此外,还设计了自适应损失融合模块,将多个分类器的决策组合起来促进视角之间的学习。

由于在生成对抗网络生成的图像中,区域一致性、颜色和纹理被证明是可区分的特征,我们经验性地考虑了三个任务来完成图像重建:掩蔽图像建模、灰度到RGB和边缘到RGB,分别用于恢复区域、颜色和纹理细节。重建约束包括像素级回归损失和频率损失。

在训练过程中,我们使用自适应损失融合策略来将不同分类器的损失进行组合。对于分类器Cv的训练,我们通过最小化交叉熵损失进行监督,即: 。自适应损失融合策略可以表示为关于权重β的最小化问题:,其中,是功率指数参数,用于避免在分类过程中得到平凡解 。在推断阶段,我们基于所有分类器对假样本的平均预测概率 进行决策,即,并且使用阈值0.5。
Experiments



(TMM2023-GRNet)Exposing Deepfake Face Forgeries with Guided Residuals
残差特征在Deepfake检测中非常有用,因为它能抑制不相关的内容特征并保留重要的操作痕迹。然而,不当的残差预测会对检测准确性产生副作用。此外,残差特征很容易受到图像操作(如压缩)的影响。残差特征通常可以提高对高质量图像的检测准确性,但对低质量图像的帮助很小。从RGB图像中提取的空间特征通常为低质量图像提供更具区分性的信息,而残差特征则更适合捕捉Deepfake伪造留下的操纵痕迹。大多数现有的方法要么利用空间域特征,要么利用残差域特征,忽视了这两种特征间的相互关联性。
我们提出了一种引导残差网络(GRnet),用于检测Deepfake面部伪造。它将上述见解融入到一个双流模型中。具体来说,RGB图像和引导残差图像被送入骨干网络,分别学习空间和残差特征。此外,还提出了一种特征融合的注意力融合机制(AFM),通过根据两个流的交叉熵损失值自适应地分配权重,以相互增强的方式有效地融合学到的特征。
我们观察到,引导滤波器是一种显式图像滤波器,它是从局部线性模型中导出的。与流行的双边滤波器类似,引导滤波器在边缘附近具有更好的行为和更快的速度。


具体方法没什么好说的,融合的时候使用上面的模块。但是!但是!融合的时候用到了loss,这个东西在推理的时候是没有的!实在是离谱。