DeepFake Papers - Part2
date
Jan 1, 2024
Last edited time
Jan 1, 2024 03:25 PM
status
Published
slug
DeepFake Papers - Part2
tags
summary
type
Post
origin
Field
Plat
(Submission to WACV2024-DIF) Deep Image Fingerprint: Towards Low Budget Synthetic Image Detection and Model Lineage Analysis(Arxiv2023)(AI-Generated Image Detection using a Cross-Attention Enhanced Dual-Stream Network(CVPR2022-ImageForensicsOSN) Robust Image Forgery Detection over Online Social Network Shared Images(AAAI2022-ADD) ADD: Frequency Attention and Multi-View based Knowledge Distillation to Detect Low-Quality Compressed Deepfake Images(CVPR2021-Spatial-Phase Shallow Learning) Spatial-Phase Shallow Learning: Rethinking Face Forgery Detection in Frequency Domain(CVPR2021-SCL) Frequency-aware Discriminative Feature Learning Supervised by Single-Center Loss for Face Forgery Detection(Arxiv2022)ADAPTIVE FREQUENCY LEARNING IN TWO-BRANCH FACE FORGERY DETECTION(Arxiv2022) DETECTING GAN-GENERATED IMAGES BY ORTHOGONAL TRAINING OF MULTIPLE CNNS(CVPR2023) TruFor: Leveraging all-round clues for trustworthy image forgery detection and localization(ICCV2023) Uncertainty-guided Learning for Improving Image Manipulation Detection(ICPC2022) FUSING GLOBAL AND LOCAL FEATURES FOR GENERALIZED AI-SYNTHESIZED IMAGE DETECTION
(Submission to WACV2024-DIF) Deep Image Fingerprint: Towards Low Budget Synthetic Image Detection and Model Lineage Analysis
指标不合理,就不放了
(Arxiv2023)(AI-Generated Image Detection using a Cross-Attention Enhanced Dual-Stream Network
(CVPR2022-ImageForensicsOSN) Robust Image Forgery Detection over Online Social Network Shared Images
广泛使用在线社交网络(OSN)使其成为传输伪造图像、报告假新闻和传播谣言等不良信息的主要渠道。OSN采用的各种有损操作,例如压缩和调整大小,给实现鲁棒的图像伪造检测带来了巨大的挑战。
为了对抗OSN共享伪造,本研究提出了一种新颖的鲁棒训练方案。具体来说,我们提出了一种噪声建模方案,并将模拟噪声集成到一个鲁棒的训练框架中。我们将OSN噪声分解为两个部分:1)可预测的噪声和2)看不见的噪声。前者旨在模拟已知操作(例如JPEG压缩)带来的可预测损失,其建模依赖于具有残差学习和嵌入式可微JPEG层的深度神经网络(DNN)。而后者主要是针对OSN进行的不可知的行为和/或各种OSN的训练和测试之间的差异。
然而,为看不见的噪声建立合适的模型是不现实的。为了解决这个困难,我们只关注可能导致检测性能恶化的噪声。这种策略自然地孵化了一种新的算法,利用对抗性噪声的核心思想来对看不见的噪声进行建模。
Method
图2展示了用于伪造检测的稳健训练方案的框架,该方案由四个阶段组成。简言之,第一阶段和第二阶段旨在通过可微网络模拟可预测的噪声。第三阶段利用对抗性噪声生成策略对不可见的噪声进行建模。最后,第4阶段进行图像伪造检测器 的实际鲁棒训练。
为了与 OSN 平台中的图像处理流程保持一致,我们训练了一个 DNN 模型,该模型显式嵌入一个可微层来描述 JPEG 压缩。在应用了可微分的JPEG层之后,训练 的目标函数变为: 在我们的训练中, 表示具有给定 QF 的可微JPEG层(Facebook采用的范围[71, 95])。然后就可以直接导出噪声 为 。
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2F90241eb8-4844-45d1-bd06-c7443622063e%2FUntitled.png?table=block&id=5a04ca4e-efc3-49cc-b534-a029a7ab6bc9&cache=v2)
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2Fb6344a51-3acd-4e54-9e83-07e246b554c6%2FUntitled.png?table=block&id=093ccccb-49b8-4d91-95fd-d56e2f574bd8&cache=v2)
S returns the sign of the gradient.
(AAAI2022-ADD) ADD: Frequency Attention and Multi-View based Knowledge Distillation to Detect Low-Quality Compressed Deepfake Images
鉴于现有方法在低质量压缩深度伪造图像上的性能问题,本研究提出了一种基于频率注意力和多视角的知识蒸馏方法,旨在提高对低质量压缩深度伪造图像的检测能力。通过引入频率注意力蒸馏和多视角注意力蒸馏,本研究试图解决低质量图像中丢失的高频信息和相关信息的问题,从而提高深度伪造图像的检测性能。
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2F8be2ec3b-54f5-455f-b467-b68847890576%2FUntitled.png?table=block&id=cb6e745c-1ca8-4671-9865-84feee4e1879&cache=v2)
- 频率注意力蒸馏:通过将学生模型关注教师模型的高频组件,使学生模型能够专注于高频信息。
- 多视角注意力蒸馏:通过将多个视角的张量元素的相关像素特征进行投影和分组,保持它们之间的相关性。
(CVPR2021-Spatial-Phase Shallow Learning) Spatial-Phase Shallow Learning: Rethinking Face Forgery Detection in Frequency Domain
本文观察到大多数人脸伪造技术中的上采样是一个必要的步骤,并且累积的上采样会导致频域中明显的变化,特别是相位谱。根据自然图像的特性,相位谱保留了丰富的频率成分,提供了额外的信息,并补充了幅度谱的损失。基于此,本文提出了一种新颖的SPSL方法,通过结合空间图像和相位谱来捕捉人脸伪造的上采样伪影,从而提高了人脸伪造检测的可迁移性。
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2Fe6a24d5f-5340-4141-92f8-e8afd34c8729%2FUntitled.png?table=block&id=363b0323-96d2-4e8a-9213-dc8f769959f1&cache=v2)
(CVPR2021-SCL) Frequency-aware Discriminative Feature Learning Supervised by Single-Center Loss for Face Forgery Detection
pytorch-single-center-loss
Amadeus-AI • Updated Dec 12, 2023
本文提出了一种面向人脸伪造检测的频率感知判别特征学习框架,通过设计单中心损失(SCL)和自适应频率特征生成模块(AFFGM),实现了更具辨别性的特征学习和自适应频率特征提取,并在FF++数据集上取得了优异的结果。
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2F76f1261b-1089-4ff0-866c-e85796917fdd%2FUntitled.png?table=block&id=272026a0-91c3-4bef-9574-48b132633c92&cache=v2)
- 单中心损失(SCL):
我们设计了一种新颖的单中心损失(SCL),它仅压缩自然人脸类内部变化,同时增强嵌入空间中的类间差异。
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2Fc2c765ff-5729-472a-bfad-859ed0fa96aa%2FUntitled.png?table=block&id=235d6b9e-9765-4d8a-9981-9a2524890cac&cache=v2)
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2F5e26be4a-681a-4e7f-8074-fba54ab2dacb%2FUntitled.png?table=block&id=3ac6d892-b966-46ab-9969-3c85649cec54&cache=v2)
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2Fa5b53970-ec78-422e-8417-0d83cc3804dd%2FUntitled.png?table=block&id=c672baec-9bbe-41a3-b6b5-be117b0bbf27&cache=v2)
- 自适应频率特征生成模块(AFFGM)
我们开发了一种名为自适应频率信息挖掘块(AFIMB)的特殊数据预处理方法,它与固定的滤波器组和手工设计的特征相比,能够更灵活地在频率域中捕捉到伪造线索。传统的滤波器组和手工设计的特征无法有效地捕捉多样输入中的伪造频率模式。因此,我们提出了AFFGM来解决这个问题。
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2Ff6e006c9-792b-495b-a3cf-b34ed4d7ed95%2FUntitled.png?table=block&id=cce834fa-af2b-4d0a-bbad-e2c994b5a908&cache=v2)
(Arxiv2022)ADAPTIVE FREQUENCY LEARNING IN TWO-BRANCH FACE FORGERY DETECTION
对 F3Net 进行改进,将硬掩膜替换为软掩膜。没什么用
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2F4c37887f-da95-4f8b-8488-a34749b55ac6%2FUntitled.png?table=block&id=f93933c0-2182-4b74-a300-577eb0937412&cache=v2)
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2F62ead7a3-e620-4514-9a89-1a1617caaa3d%2FUntitled.png?table=block&id=6196742a-b091-4751-935e-5894fc875f63&cache=v2)
(Arxiv2022) DETECTING GAN-GENERATED IMAGES BY ORTHOGONAL TRAINING OF MULTIPLE CNNS
主要的步骤是将数据集拆分为不同的部分,并使用不同的CNN进行训练。如果在测试图像中提取的补丁中至少有一个被检测为合成图像,那么卷积神经网络会将整个图像归类为合成图像类别。
我们采用了两个主要的思路:(i) CNN应该提供“正交”的结果,以更好地为集成做出贡献;(ii) 原始图像比合成图像更好地定义,因此在测试时应更值得信任。
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2F0009f4e9-6cc2-4d1c-801c-4fea29a6b807%2FUntitled.png?table=block&id=ba9ca77a-0776-4166-98cd-d2eee7dc0f7c&cache=v2)
(CVPR2023) TruFor: Leveraging all-round clues for trustworthy image forgery detection and localization
我们使用基于变换器的融合架构从RGB图像和学习的噪声敏感指纹中提取高级和低级痕迹。通过仅在真实数据上进行自我监督训练,我们学习了与相机内部和外部处理相关的伪造痕迹。
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2Faddb8218-8e29-4196-b87e-e21a93e6ab79%2FUntitled.png?table=block&id=5206c465-b94a-4343-a8c7-db89e91c1ef1&cache=v2)
Noiseprint++
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2F5e5d631d-08c9-4384-96c8-bc852c05f114%2FUntitled.png?table=block&id=0d8c4124-45db-490d-9433-1a399389e66f&cache=v2)
当两个补丁被认为是不同的时候,它们具有以下不同之处: (i) 它们来自不同的源; (ii) 它们从不同的空间位置提取; (iii) 它们具有不同的编辑历史。这些约束的目的是区分: (i) 由不同相机生成的补丁; (ii) 从一个空间位置移动到另一个空间位置的补丁; (iii) 来自经过不同后处理的图像的补丁。
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2F1f252820-ecd6-4afa-9ac9-522f90f3de3e%2FUntitled.png?table=block&id=b468a3be-d96e-40a8-b2b3-8c75c749e51a&cache=v2)
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2Fccf0489d-8461-47d5-bf37-7eded1099e15%2FUntitled.png?table=block&id=fcef1531-5f67-48d5-ac1a-dd7254cd6586&cache=v2)
Noiseprint 提出了一种基于深度学习的方法,用于从每张图像中提取其噪声图案。这种方法收集和强调与相机内部处理步骤相关的所有痕迹的图像级模式。该方法通过自监督学习仅使用原始图像进行训练,确保可以在大规模语料库上进行训练。然而,该方法在由相机外部过程引起的图像损坏方面显示出有限的鲁棒性,这是一个重要的缺点。考虑到在图像的生命周期中可能存在多种形式的损坏,为了克服这个限制,我们提出了一种改进的图像指纹——Noiseprint++。Noiseprint++突出显示与相机内外处理过程相关的痕迹,捕捉不仅相机型号的信息,还捕捉其编辑历史的信息,从而提高了其可靠性。
Noiseprint++提取器通过学习基于补丁级别的自相似性来提取。我们采用了具有15个可训练层、3个输入通道和1个输出通道的DnCNN架构。该提取器在数据集中的图像中随机提取的64×64像素的补丁上进行训练。训练的目标是获得具有相同属性的补丁之间的相同的对噪声敏感的指纹,并且对于在某些方面不同的补丁具有不同的噪声残差。
Anomaly localization map
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2Fe178a347-6496-4fb5-9c9d-789f848bd085%2FUntitled.png?table=block&id=f75e78d9-602f-4280-8f2e-9b22c5a66280&cache=v2)
Result
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2Fc79e2a93-ca09-4265-abc7-a26a5b9076be%2FUntitled.png?table=block&id=34084828-df7c-43c1-8e9b-b42dd0b51cbf&cache=v2)
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2F41520ad2-5844-44fc-a55a-2a8cf21fde71%2FUntitled.png?table=block&id=67b3527f-f490-44f4-adcd-d9befc512f30&cache=v2)
(ICCV2023) Uncertainty-guided Learning for Improving Image Manipulation Detection
不得不説,好水的文章。。。
Story
IMD任务面临两个主要挑战:数据不确定性和模型不确定性。首先,数据不确定性源于被操作的工件通常很难识别,这给标注工作带来了巨大的挑战,并导致了噪声标签的出现。其次,模型不确定性是由于同一视觉内容在不同图像中的标签可能不一致而产生的。传统方法和基于深度学习的方法可以生成带有准确标签的操作数据,并在一定程度上缓解了数据不确定性问题。然而,生成的数据与现实世界中的操作数据并不具有相同的分布。因此,这些方法无法有效应对实际案例中的数据不确定性问题。
为了揭示这两种不确定性,有一种直接的解决方法是利用不确定性估计技术对其进行估计。在这些技术中,数据不确定性和模型不确定性分别被称为即兴不确定性和认知不确定性。本文采用蒙特卡洛抽样方法来近似这两种不确定性。
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2F2aee5d3b-43a2-4477-9683-63eddca5c2d5%2FUntitled.png?table=block&id=0b8dc23c-9665-4010-aeb4-5793d138c377&cache=v2)
先提出這兩種不確定性,詳細介紹這兩種不確定性,但是後面卻使用模型建模統一的不確定性。😰
Method
我们提出了一种不确定性引导的学习框架,该框架结合了一种新的不确定性估计网络(Uncertainty Estimation Network,UEN)来捕获数据和模型的不确定性。UEN由动态不确定性监督(DUS)和不确定性预测精化(UPR)两个关键部分组成。具体来说,我们推导出预测结果与真实值之间的差值,作为对UEN的动态不确定性监督。得益于DUS的精心设计,数据不确定性和模型不确定性图被精确地估计出来,并被进一步整合以细化UPR中的操纵预测。
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2F2da7c3c2-3ceb-4468-9f14-08ce63d087f8%2FUntitled.png?table=block&id=0145d8d8-fd85-423d-b14d-c8a38ff45fd6&cache=v2)
Uncertainty estimation network
的獲取比較奇怪,這個真的算是不確定性圖麽,應該算是誤差圖?至於其他的是常規操作。
Uncertainty-guided prediction refinement
我们打算通过设计不确定性引导的预测精化 (UPR) 来解决这些困难。具体而言,我们提出将特征嵌入 与加权不确定性图进行耦合。具体方法如下所示:
至於其他的 都是 BCE 損失。
Result
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2Ff9de02f2-d3e9-4fb2-b2b6-19a03e6b6bbd%2FUntitled.png?table=block&id=5d6366aa-27bc-4798-b8e3-3e3f3b5e188b&cache=v2)
(ICPC2022) FUSING GLOBAL AND LOCAL FEATURES FOR GENERALIZED AI-SYNTHESIZED IMAGE DETECTION
我们提出了一个双分支模型,该模型将整个图像的全局空间信息与经过新颖的补丁选择模块选择的多个补丁的局部信息特征相结合。我们进一步利用多头注意力机制来融合全局和局部特征。
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2F58311b5b-c516-4beb-9f75-d7be1f970cf2%2FUntitled.png?table=block&id=d6b0c135-4bde-40ae-8dea-68eedd6f3f5a&cache=v2)
我们的本地分支旨在寻找具有最大信息量的图像块,并从中提取判别性的局部特征。假设在全局特征图中具有较高能量的区域通常对分类任务更具信息量,因此我们设计了一个块选择模块(Patch Selection Module,PSM),用于从全局特征图中定位最有用的图像块。PSM模块通过计算全局特征图 中的块评分来提取输入图像中具有最大信息量的块的坐标。
我们在激活图上滑动一个大小为的窗口,计算每个窗口的平均评分,以表示输入图像中相应块的信息量。通过对分数进行排序,我们使用非极大值抑制(NMS)来减少重叠的补丁,并选择得分较高的固定数量的窗口作为我们的补丁提议。