(ACM 2023)Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images 论文阅读

date

Jul 14, 2023

Last edited time

Jul 14, 2023 09:31 AM

status

Published

slug

Parents-and-Children论文阅读

Dataset

我们生成并发布了 COCOFake 数据集。 COCOFake 中的每个真实图像都与五个假图像配对，这些假图像是根据与同一图像关联的每个标题有条件生成的。具体来说，我们采用稳定扩散的 1.4 版本，COCO数据集包含113,287张训练图像、5,000张验证图像和5,000张测试图像。保留相同的分割，COCOFake 由 679,722 个训练图像、30,000 个验证图像和 30,000 个测试图像组成。

为了评估我们分析的稳健性，我们使用不同版本的稳定扩散（即 v2.1）进一步生成测试和训练集。

我们将语义簇定义为起始真实图像和由其生成的个假图像的后代的集合。

Experiments

Unsupervised classification

我们首先评估现有图像特征在无监督环境中区分真实图像和生成图像的能力。我们采用上面定义的最小和最大距离精度指标，并检查每个簇内真实图像和生成图像之间是否存在空间关系。

表 1 报告了 Stable Diffusion v1.4 和 v2.1 的测试和验证集的结果。我们采用六种不同的视觉主干，即在 ImageNet 和 OpenAI WIT 上预训练的两个 ResNet-50，以及在 ImageNet、OpenAI WIT、LAION-400M 和 LAION2B 上预训练的四个 ViT-B/32。

可以看出，根据从上述主干提取的特征，每个簇的真实图像往往是相对于所有其他元素具有最大距离的图像。这表明这些特征对于深度伪造分类任务具有区分性，并且它们渗透低级特征，从而允许区分每个语义簇内的真实项目和生成项目。值得注意的是，当考虑到在多模态数据集上训练的主干与在分类上训练的主干相比，这表明图像文本匹配促进了感知特征的渗透。比较结果 Stable Diffusion v2.1 比 v1.4 有所改进，最大距离度量的增加和最小距离度量的减少证明了这一点。这表明从 v2.1 中提取的特征具有更好的可分离性，因此生成的图像更容易检测。

💡

我感觉这个指标说明不了什么问题，直接略过

Linear probing

为了评估当前预训练视觉特征的判别能力，使用预训练的 Image Encoder + MLP 进行二分类。结果表明对比训练的预训练 Backbone 具有更强的特征提取能力。至于指标，

Semantic-Style Disentangling Results

由于生成图像和真实图像之间的低级线索的差异可能会促进对假图像的检测，因此我们最终研究了一种更具挑战性的设置，其中由生成器引起的样式组件被解开并删除。

具体来说，使用对比学习的方式，将图像投影到语义空间和风格空间中。

💡

即在T风格空间中，拉近 Real，Fake 组内的图像距离，推远不同语义簇的图像的距离。在 S语义空间中相反。

我们观察到，在注重风格的T空间中，真实图像和假图像可以被正确区分，因为真实图像总是与生成的图像相距很远。相反，这种情况不会发生在 S 空间中，S 空间注重语义，并且属于同一簇的所有元素都被拉在一起，而与它们的真实性无关。尽管如此，深度赝品的识别仍然是可行的，尽管准确率较低，即使在这个更具挑战性的领域，在验证集上的准确率高达 75%。由于这对应于测试更具挑战性的生成器，留下更少的低级痕迹，我们相信这个结果可能为未来的工作提供有趣的见解。使用 Stable Diffusion v2 生成的图像时也可以观察到类似但略低的结果，总体准确率高达 71%。