DM检测论文阅读

date
Jun 7, 2023
Last edited time
Jul 14, 2023 09:32 AM
status
Published
slug
DM检测论文阅读
tags
DL
CV
DDPM
summary
type
Post
Field
Plat

Basic

notion image
💡
来自 Intriguing properties of synthetic images: from generative adversarial networks to diffusion models

Papers

Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models

扩散模型可能会在没有通知的情况下直接从训练集中复制数据,或者呈现多个训练图像的拼贴画。我们表明,对于中小型数据集大小,复制经常发生,而对于在大型和多样化的 ImageNet 数据集上训练的模型,复制似乎检测不到。但这很可能是被低估的。
notion image
本文研究了图像检索框架,使我们能够将生成的图像与训练样本进行比较,并检测内容何时被复制。作者使用真实和特意构建的合成数据集对不同的图像特征提取器的性能进行了基准测试,并表明最先进的实例检索模型在这项任务中表现良好。
💡
合成数据集如下
notion image
💡
问题
  1. 只是检索 并不能独立鉴别
  1. 本文不关注 Style,因为它们非常主观,通常不被视为侵犯知识产权
  1. 使用合成数据集来判别效果 扩散模型只是噱头
  1. 只是用简单的提取特征 然后判断相似度 做法简单

Towards the Detection of Diffusion Model Deepfakes

💡
这篇用的生成用的数据集是PNG 但是LSUN真实数据集是JPEG 导致容易被检测到 但是一些分析还是值得一看(但也不一定)
这篇文章作者探索了之前的GAN识别方法能否用于 DM 模型图的识别,是否有统一的检测器可以识别两种模型生成的图:
  1. 使用的数据集是LSUN Bedroom[6],包括卧室(Bedroom)、客厅(Living Room)、餐厅(Dining Room)、办公室(Office)、厨房(Kitchen)、街景(Street View)等场景。
  1. 测了5个GAN和5个DM模型,发现GAN上的模型直接用在DM模型的图上检测效果会变差很多,但Finetune一下性能就会恢复;
    1. 💡
      我们重复第 5.2 节中描述的实验,但微调每个分类器而不是从头开始训练它,结果如图 9 所示。对于大多数训练和测试数据,结果与第 5.2 节中的实验相似,从头开始训练的模型往往得分更差。
      notion image
      比较了以下检测GAN图的方法
      • “CNN-generated images are surprisingly easy to spot... for now”
      • “Are GAN generated images easy to detect? A critical analysis of the state-of-the-art”
      • “Detecting GAN-generated images by orthogonal training of multiple CNNs”
      notion image
      对于 DM 生成的图像,我们观察到所有检测器的性能都急剧下降,与 GAN 相比,AUROC 平均下降了 15.2%。
      notion image
  1. 相比于GAN图,DM图在频率人工信息更少;一方面,使用简单的逻辑回归分类器,DM 生成的图像可以在频率空间中比在像素空间中更好地分类。另一方面,与 GAN 生成的图像相比,频率和像素空间的检测精度明显较低,因此很难得出结论。然而,一个简单的分类器在 GAN 生成的图像上表现明显更好的事实强化了这样的假设,即它们比 DM 生成的图像表现出更明显的生成痕迹。
    1. notion image
      notion image
  1. 使用配置 Blur+JPEG 方法来从头训练来检测 DM。结果如图 1 所示。根据来自特定 DM 的图像进行训练的模型获得了近乎完美的分数,Pd@1% 的范围从 ADM 的 98.2% 到 PNDM 和 LDM 的 100.0%。在一定程度上,检测器能够泛化到其他 DM,表明共同的、可检测的特征。
    1. notion image
  1. 在 DM 生成的图像上训练的检测器在 GAN 生成的图像上的表现优于反之。我们的结果表明,识别 DM 生成的图像比识别 GAN 图像更困难。我们观察到真实图像和 GAN 生成的图像之间存在相对明显的分离,而真实图像和 DM 生成的图像之间存在更大的重叠(图 2a)。这些结果与表 2 中的分类结果相匹配。观察仅在 DM 生成的图像上训练的检测器(图 2d),GAN 和 DM 生成的图像的特征表示似乎相似。相比之下,使用 GAN 生成的图像或两者(图 2c 和 2b)训练的检测器似乎学习了 GAN 和 DM 生成图像的不同特征表示。基于这些结果,我们假设 GAN 和 DM 生成的图像具有一些共同的、可检测的特征,而在 DM 生成的图像上训练的检测器只能捕获这些特征。然而,在 GAN 生成的图像上训练的检测器似乎主要关注 GAN 特定的模式,这些模式可能更加突出,因此更容易检测。
    1. notion image
  1. 我们观察到与 GAN 生成的图像相比,扰动(裁剪除外)对 DM 生成的图像有更强的影响。
    1. 💡
      这里有比较 JPEG 压缩(重点是这里)。表格说明使用现有的模型,在DM生成的样本上进行 Finetune,在JPEG压缩条件下,可以较好判别(除了ADM)。
      notion image
       

On the detection of synthetic images generated by diffusion models (ICASSP2023)

该文章研究为 GAN 生成的图像开发的当前检测器如何在这些新的合成图像上执行,尤其是在涉及图像压缩和调整大小的具有挑战性的社交网络场景中。
  1. 我们 [28] 中提出的去噪滤波器,证明它已经成功用于相机指纹提取。We average the noise residuals of 1000 images, then take the Fourier transform of the result to carry out a spectral analysis.
    1. 💡
      K. Zhang, W. Zuo, Y. Chen, D. Meng, and L. Zhang, “Beyond a gaussian denoiser: Residual learning of deep cnn for image denoising,” IEEE Transactions on Image Processing, vol. 26, no. 7, pp. 3142–3155, 2017.
      notion image
      结果与上一篇类似 ADM and DALL·E 2 的特征更不明显
      💡
      本文说 ADM 和 DALL·E 2 与其他扩散模型有所不同 比如说泛化性差距很大
  1. 通过对现有的12个检测器进行训练和测试(真实数据源自COCO、ImageNet和UCID;合成图来自COCO的langage prompts使用ProGAN生成),结果表明现有模型的泛化性能依然有限,比如在DM上训,在DM的图上测试,效果还可以,但跨模型测就不行了。
  1. 另外,如果图片经过二次处理(比如压缩等社交媒体的变换),这些生成图就更难判断了,因为压缩会损失一些痕迹(比如高频信息等)。
    1. notion image
      💡
      Uncompressed 旨在强调在这种情况下检测会更容易,因为真实图像总是由相机中嵌入的编解码器压缩为 JPEG,具有 JPEG 压缩伪影的特征,而合成图像不会嵌入此类痕迹。 Resize and Compressed 除了 ProGAN(出现在训练中)之外,显示性能普遍下降。
      notion image
      StyleGAN3 的 Spec 的指标是怎么回事?
      而且频域借鉴别方法效果更差了 与上一篇矛盾 原来好像没说使用的模型是什么
  1. 我们在使用 ADM LDM生成的图像上训练了性能最佳的方法 (Grag2021),并在调整大小/压缩的数据集上进行了测试。我们观察到,不仅在 ADM LDM上而且在稳定扩散上都实现了近乎完美的检测,在其他扩散模型上的性能并不比在 GAN 生成的图像上获得的性能好多少
    1. notion image
💡
Fusion 与 ProGAN 训练的做一个平均. Calibration 做数据增强
表里的训练的是 Lantent Diffusioin 文不对版呀
表中效果差的,包括 DALLE2 GLIDE ADM 都是DM类模型 没有用到VAE。但现在大多都使用LDM技术

Intriguing properties of synthetic images: from generative adversarial networks to diffusion models (CVPR2023)

💡
和上面的 On the detection of synthetic images generated by diffusion models 是同一个作者
这一篇提出了一个新的 fingerprinit 的生成方式 即 power spectra 以及 autocorrlation.
notion image
notion image
在一些常见的模型能够提取伪影 但是任然存在几个问题
💡
没有 ADM 的示例 不知道效果如何
  1. compression and resizing 压缩和调整大小 会破坏伪影
    1. notion image
  1. ADM 甚至能学习数据集因 JPEG 压缩导致的伪影
    1. notion image
💡
总结一下 就是没什么用. 压缩是非常常见的
另外 本篇提出可以在光谱的高频来判断,这不是因为生成伪影,而是因为无法正确复制自然图像的统计数据。并且 angular spectra 有区别(但这个是统计性规律 不知道训练能不能用到 而且对于压缩 没有分析)
notion image

DIRE for Diffusion-Generated Image Detection

作者发现DM 图可以被近似地被扩散模型重建,但真实图片不行。将重建图和原图的图片差异记为扩散重建差(DIffusion Reconstruction Error,DIRE),则DIRE可以作为特征进行2分类训练,判断是否虚假,泛化性会高很多;
notion image
重建图像差DIRE可以区分真实图和合成图的原因如下图:
  1. 合成图在重建后变化往往较小;
  1. 真实图在重建后变化相对较大;
真实图在重建时会丢失很多信息,而生成图由于本身就是模型生成的,重建时信息变化相对不大。因此差异可以反映其真假。
notion image
该方法通过预训练的扩散模型(Denoising Diffusion Implicit Models,DDIMs[7])对图片进程重建,测量输入图像与重建图像之间的误差。
notion image
此外,作者提出了一个数据集 DiffusionForensics,同时复现了8个扩散模型对提出方法进行识别(ADM、DDPM、iDDPM, PNDM, LDM, SD-v1, SD-v2, VQ-Diffusion);
  • 跨模型泛化较好:比如ADM的DIRE 对 StyleGAN 也支持,
  • 跨数据集泛化:LSUN-B训练模型在ImageNet上也很好;
  • 抗扰动较好:对JPEG压缩 和 高斯模糊的图,性能很好;
最后看下实验指标,看起来在扩散模型上效果很好,这ACC/AP都挺高的,不知道在GAN图上效果如何。
💡
在 GAN 的效果也很好。但是训练的时候根本没有输入GAN的图,也就是说模型找到了DM与GAN的共同特征?有点不合理。另外,跨数据集表现也很好
notion image
notion image
notion image
💡
看起来效果很好 并且对于压缩也没有影响

Hierarchical Fine-Grained Image Forgery Detection and Localization (CVPR2023)

具体来说,对于每种生成方法和未见领域的真实图像,我们收集了 1000 张图像,并使用这些图像形成推理数据集。之后,在给定 0.5 固定阈值的情况下,我们将预训练的 HiFi-Net 应用于此类推理以计算分类精度。
notion image
我们观察到训练有素的模型在扩散模型部分操纵的图像上总是泛化不佳。
notion image
 

DE-FAKE: Detection and Attribution of Fake Images Generated by Text-to-Image Diffusion Models (CCS)

说是把 BLIP 先用来提取 图片的Caption 再一起做分类,效果会更好。但是训练的分类器用的是 Resnet18,感觉不是很靠谱。所以没有细看。并且没有使用JPEG压缩。
notion image
Forensic classfier 是在GAN上训练出来的,自然效果很差。
notion image

LEVEL UP THE DEEPFAKE DETECTION: A METHOD TO EFFECTIVELY DISCRIMINATE IMAGES GENERATED BY GAN ARCHITECTURES AND DIFFUSION MODELS

这篇也一般般。抄 Hierarchical Fine-Grained Image Forgery Detection and Localization 的方法,来做做个多级的分类。而且没有分析使用JPEG压缩对其的影响。
notion image

Generalizable Synthetic Image Detection via Language-guided Contrastive Learning

本文提出了一种新的合成图像检测方法,称为LanguAge-guided SynThEsis Detection (LASTED)。该方法利用增强的语言监督来提高图像域的取证特征提取。LASTED方法采用对比学习框架,通过将图像和文本编码器联合训练,从而学习到更具有泛化性的特征表示。
Augmenting with Textual Labels
notion image
由于训练数据集中通常不包含文本信息,因此本文提出了一种文本数据增强策略,即将“Real Photo”、“Real Painting”、“Synthetic Photo”和“Synthetic Painting”等标签与图像进行关联。这些标签提供了可学习的高维目标,使得“Real Photo”、“Real Painting”、“Synthetic Photo”和“Synthetic Painting”等不同类别之间的语义解耦更容易被优化。
另外,若仅将“Real”或“Synthetic”标签与每个图像关联进行对比学习,实验结果表明这种方法的泛化性能较差。因此,本文将图像与更加具体的标签进行关联。
使用 Language-guided Contrastive Learning 的目的
LASTED方法使用增强的语言监督来指导图像编码器和文本编码器的训练,从而使得这两个编码器能够学习到更加有意义的特征表示。作者发现仅在 ImageNet 上训练的对比学习模型可以区分 Real 以及 Synthetic 的图像,特别是 CLIP 的效果最好。
notion image
数据集
  1. 训练数据集:
    1. real photos from LSUN, real paintings from Danbooru, synthetic photos by ProGAN, and synthetic paintings by Stable Diffusion (SD) from Midjourney.
  1. 测试数据集
    1. including three GANs (BigGAN, GauGAN, and StyleGAN) and four DMs (DALLE, GLIDE, Guided Diffusion, and Latent Diffusion).
      1. notion image
    2. by collecting images from mainstream sharing platforms.
    3. notion image
Ablation
  1. 使用直接分类的方法,而不是使用CLIP对比学习。
notion image
💡
这里说明 R5 比 R3 (R4类似与直接多分类)效果更好,是因为更合理的负例对比强度。即不至于将 AB 与 AC 拉的比 AB 比 CD 更开。
notion image
notion image

Detecting Images Generated by Deep Diffusion Models using their Local Intrinsic Dimensionality

(ACM 2023)Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images 论文阅读

目前公开DM检测数据集

  1. Towards the Detection of Diffusion Model Deepfakes
    1. LSUN Bedroom
      GANs
      DMs
      ProGAN
      DDPM
      StyleGAN
      IDDPM
      ProjectedGAN
      ADM
      Diffusion-StyleGAN2
      PNDM
      Diffusion-ProjectedGAN
      LDM
       
  1. On the detection of synthetic images generated by diffusion models
    1. notion image
  1. DIRE for Diffusion-Generated Image Detection
    1. notion image
      未开源
  1. Generalizable Synthetic Image Detection via Language-guided Contrastive Learning
    1. 需要申请

Reference

 

© Lazurite 2021 - 2024