篡改图像检测论文

date

Oct 15, 2024

Last edited time

Oct 15, 2024 05:48 AM

status

Published

slug

篡改图像检测论文 - Part1

数据集

LEARNING TO LOCATE THE TEXT FORGERY IN SMARTPHONE SCREENSHOTS

Learning to Locate the Text Forgery in Smartphone Screenshots | IEEE Conference Publication | IEEE Xplore

In this paper, we present the Screenshot Text Forgery Dataset (STFD), which is the first public dataset for the smartphone screenshot text forgery localization task. To address such a task, we propose a novel Screenshot Text Forgery Localization Network (STFL-Net). Specifically, we introduce the OCR (Optical Character Recognition) stream as the complementary of the RGB stream, and propose a novel dual-stream Y-net architecture to collaboratively learn the representations focused on the traces on text regions of the image. Considering the text forgery is often subtle and local, we introduce a multi-teacher knowledge distillation learning strategy for training the STFL-Net, which makes the model less prone to over-fit one specific forgery trace. Comprehensive experimental results on STFD show that our method outperforms several previous methods designed for image forgery localization. We believe that, with our STFD dataset and STFL-Net, more advanced countermeasures against screenshot text forgeries can be developed in the future.

https://ieeexplore.ieee.org/document/10095070/

Dataset

我们使用安卓、Harmony和iOS系统的智能手机收集了4094张原始截屏。这些截屏以JPEG或PNG格式保存，其分辨率从750×1334到2224×1668不等。对于每个原始截屏生成相应的STF (Screenshot Text Forgery)，然后以PNG格式保存伪造截屏。我们在表1中展示了伪造截屏的详细信息。值得注意的是，伪造区域仅占整个图像的平均1.074％，这使得所提出的STFD相比其他图像取证数据集更具挑战性。我们将STFD按8:1:1的比例划分为不相交的训练、验证和测试部分。

方法

我们引入了OCR（光学字符识别）流（PP-OCR）作为RGB流的补充，并提出了一种新颖的双流Y-net架构，以共同学习图像文本区域上的痕迹所集中的表示。OCR流的设计目的是引导网络集中关注图像的文本区域。

💡

我们使用PP-OCR工具来检测和标记文本像素，并将剩余的非文本区域设置为黑色以得到OCR地图。

考虑到文本伪造通常是微妙且局部的，我们引入了一种多教师知识蒸馏学习策略来训练STFL-Net，这使得模型不容易过度拟合特定的伪造痕迹。每个教师模型都使用特定类型的伪造数据在上进行预训练，然后在STFD中获得了五个教师模型，分别对应五种STF类型。

总损失可以写为：

ICDAR 2023 Competition on Detecting Tampered Text in Images

Dataset

提出TTI数据集，其中包含11,385张图片。其中5,500张图片经过了各种操作技术的篡改，并且使用像素级别的蒙版进行了注释。

数据来源

阿里巴巴集团提供的经过数据脱敏后的电商应用图像

志愿者拍摄的日常生活中的文字图像

从开源数据集中选择的文本图像。这些图像包括认证、合同、截图、书籍、商品包装、招牌等。其中，收据图像来自SROIE数据集，扫描文档图像来自FUNSD和TNCR数据集。

篡改方式

我们对收集的文本图像进行了手动和自动操作，包括以下六种操作：(1) 复制-粘贴，(2) 拼接，(3) 插入，(4) 修复，(5) 覆盖，(6) 替换。自动操作是通过执行模仿上述真实文本篡改过程的PS脚本实现的。所有被篡改的图像都会经过一系列后处理步骤，其中包括随机裁剪、随机调整大小和随机压缩，以模拟实际电子商务场景中常见的扭曲效果。

通过比较篡改前后图像之间的差异，生成自动操纵图像的注释。（即有些标注是像素级别，非图像块级别）

Dataset Statistics and Analysis

大多数被篡改的区域小于5‰，篡改像素数超过30%的图像比例低于5%。图像的大小各不相同，给追踪微妙的篡改线索带来了挑战。

方案

DeepLabv3+ 作为基本架构，使用DiNAT作为其主干，然后添加分类头和分割头。多任务学习可以通过将分类概率视为先验知识来优化分割性能。此外，基于CAT-Net 的改进DCT Volume流平行提取DCT域中的JPEG伪影。受TransForensics 启发，他们用注意力解码器替换了DeepLabv3+ 中的原始分割解码器，以增强不同位置和层级之间的关系。此外，在训练过程中采用了随机调整大小和随机压缩以平衡分布。同时使用Focal loss和dice loss来缓解数据不平衡问题。

为了结合不同架构的优势，我们采用了五种模型进行集成，包括ConvNeXt，HRNet，SegNeXt，DeepLabV3+和SegFormer。我们采用了各种数据增强策略，包括随机裁剪、随机压缩、光度扭曲、随机运动模糊、随机旋转和随机水平翻转。此外，我们还使用训练集中的未篡改图像合成伪造文本，以扩展正样本。为了解决数据不平衡的问题，我们应用了在线困难样本挖掘（OHEM）和加权损失函数。交叉熵损失、lovasz损失和dice损失的组合也有助于模型性能。为了全面探索局部和全局信息，我们在推理过程中采用了多尺度输入。

该团队利用ConvNeXt和SegFormer作为基本的分割模型。使用Dice损失和交叉熵损失来解决正负样本不平衡的问题。此外，他们通过添加辅助分类头来引入多任务学习，以减轻错误阳性的问题。为了解决尺度多样性的问题，他们采用了课程学习范例，在训练过程中不断从小尺寸迁移到大尺寸。还使用了随机翻转、随机亮度和对比度变换、随机压缩和随机高斯噪声进行数据增强。在推断过程中应用TTA来提高性能。

DocTamper(Towards Robust Tampered Text Detection in Document Image: New Dataset and New Solution)

Dataset

openaccess.thecvf.com

https://openaccess.thecvf.com/content/CVPR2023/papers/Qu_Towards_Robust_Tampered_Text_Detection_in_Document_Image_New_Dataset_CVPR_2023_paper.pdf

GitHub - qcf-568/DocTamper: DocTamper dataset

DocTamper dataset. Contribute to qcf-568/DocTamper development by creating an account on GitHub.

https://github.com/qcf-568/DocTamper

github.com

https://github.com/DLLXW/data-science-competition/tree/main/tianchi/ImageForgeryLocationChallenge

文本篡改数据合成管道

使用开源OCR工具，获取单词和字符的边界框。

使用SAUVOLA算法将文档图像的前景从背景中分离出来，并记录每个文本的前景色和背景色。

采用选择性复制粘贴和选择性生成两种方法获得篡改后的文档图像。

通过后期处理来提高视觉一致性。

数据集描述

如表2所示，DocTamper数据集总共包含170k张被篡改的文档图像，其中包括中文和英文。我们的数据集中涵盖了复制-移动、拼接和生成这些不同类型的篡改，并且这些篡改类型的分布近似均匀。此外，我们将数据集划分为四个子集：一个包含120k个样本的训练集，一个包含30k个样本的通用测试集，以及两个分别包含2k和18k个样本的跨域测试集(FCD, SCD)。所有的被篡改图像都没有进行压缩存储，因此可以使用定制的压缩配置对其进行训练或测试。此外，我们还提供了像素级注释，用于表示篡改的文本区域。

Method

💡

包含三个部份：RGB+DCT输入，迭代的mask解码器，JPEG压缩逐步增强的训练策略。

在本节中，我们介绍了一种名为文档篡改检测器（DTD）的新模型，用于检测文档图像的篡改。总体架构如图4所示，它由四个模块组成： (1) 视觉感知头，从原始图像中提取视觉特征； (2) 频率感知头，将图像的离散余弦变换（DCT）系数转换为频域特征嵌入； (3) 多模态编码器； (4) 用于最终预测的多视图迭代解码器。

Visual Perception Head（视觉感知头）：

Frequency Perception Head（频率感知头）：

Multi-view Iterative Decoder(多视图迭代解码器):

Curriculum Learning for Tampering Detection

在本节中，我们提出了一种名为篡改检测的课程学习（CLTD）的新的训练范例。该方法通过动态控制图像压缩的质量，以一种从易到难的方式来训练篡改文本检测模型。我们发现，这种方法可以显著提高模型对不同图像压缩的鲁棒性和跨域泛化能力。

具体实现中，我们动态选择随机的JPEG压缩质量因子，范围为(B1, 100)。其中，B1是从(100-S/T, 100)中动态选择的。这里，S表示当前训练步数，T是手动预设的常数。相比于在整个训练过程中均匀选择随机质量因子，使用CLTD的模型在一开始更有可能遇到未压缩的图像。

Tampered-IC13(Detecting Tampered Scene Text in the Wild)

Tampered-IC13

wangyuxin87 • Updated Aug 22, 2024

💡

提出在一般场景文本检测(STD)方法的基础上，完成“篡改场景文本检测”（TSTD）任务，即S3R策略，两个分支分别完成真实/篡改的文本分割。

Motivaton

为了继承一般场景文本检测(STD)方法的优点，如多尺度文本建模等，我们认为TSTD方法应该从STD方法发展而来，而不是一个全新的架构。因此，我们提出了一种名为Separating Segmentation while Sharing Regression (S3R)的修改策略，以基于现有的STD方法构建TSTD方法。S3R策略将篡改文本和真实文本之间的分割分支进行分离。

💡

TSTD任务需要定位场景图像中的所有文本，并判断该文本是否被篡改过(如图1所示)。

💡

场景文本检测（STD）网络包含两个过程：文本定位（TL）和几何预测（GP）。TL过程确定文本实例的位置（例如中心点/行），GP过程旨在准确重构文本区域（例如轮廓线）。

Method

本文使用两个并行的TL/GP头来预测篡改图像和真实图像。此外，使用了一个并行分支特征提取器，包括一个频率分支和一个RGB分支，以捕获高频信息和RGB信息。来自两个分支的特征被融合进行预测。

我们的并行分支特征提取器包含两个部分：频率分支和RGB分支。首先，输入图像分别经过这两个分支进行处理。然后，从两个分支捕获的信息通过逐元素相加进行融合。最后，聚合的特征被发送到主干网络。

RTM (Toward Real Text Manipulation Detection: New Dataset and New Solution)

Toward Real Text Manipulation Detection: New Dataset and New Solution

With the surge in realistic text tampering, detecting fraudulent text in images has gained prominence for maintaining information security. However, the high costs associated with professional...

https://arxiv.org/abs/2312.06934

GitHub - DrLuo/RTM: The official repository of Real Text Manipulation (RTM)

The official repository of Real Text Manipulation (RTM) - GitHub - DrLuo/RTM: The official repository of Real Text Manipulation (RTM)

https://github.com/DrLuo/RTM

Dataset

我们提供了一个真实文本操作（RTM）数据集，包括14,250个文本图像，其中包括5,986个手动篡改图像和5,258个自动篡改图像，使用各种技术创建，同时还有3,006个未修改的文本图像，用于评估解决方案的稳定性。

数据集来源

从电子商务平台提供的真实应用的普通文本图像，包括证书、合同、发票、截图等；

由志愿者使用智能手机和数码相机拍摄的文本图像，包括图书、商品包装、纸张、招牌等；

从开源数据集中选择的文档，特别是来自SROIE、FUNSD和TNCR的收据、扫描文件。

篡改操作

采用了由25个具有不同编辑偏好的专业操作员进行的手动篡改。这些操作员使用的操作包括copy-move、splicing、insertion、inpainting和coverage。

自动篡改采用脚本自动生成，首先使用OCR工具分离文本和背景，然后进行文本篡改。

篡改完成后进行后处理，包括：Resize, Distortion, Jpeg压缩。

Method

💡

1.提出一个可以结合多个不同域输入的CAHub模块，以融合增强特征图。 2.带Memory Bank的对比学习。

我们构建了一个可扩展的基线模型ASC-Former（Asymmetric Stream Contrastive Transformer），在RTM上取得了最佳的整体性能。

我们并行地引入了一个辅助分支作为额外的线索，用于追踪图像篡改的痕迹，这个分支可以接收多个转换后的域。我们设计了一个一致性感知的聚合中心（CA Hub），用于收集每个域中的信息线索，而且可以很容易地扩展到更多的视角，而且计算开销很小。由于转换后的域是从原始的RGB图像中派生出来的，并且代表了输入的某个局部属性，我们通过一个门控交叉邻域注意力融合模块（GCNF）自适应地聚合多源特征。

此外，在训练阶段还使用了一个篡改-真实对比学习模块（TAC），明确增加潜在特征的区分度，其中配备了一个记忆机制，以应对篡改像素分布不平衡导致的样本配对不足的问题。

CAHub, GCNF

用于特征融合，使用其他的如 Efficient Attention也可以

Tampered-Authentic Contrastive Learning

引入篡改真实对比损失（TAC Loss），对真实、篡改图像块进行对比学习。

Exp

Segformer效果不错。

Tampered-IC13 方法使用了文本定位辅助任务，本文没有。

检测方法

多输入

DocTamper：RGB + DCT

💡

VPH 和 PFH 中使用 CoordConv卷积学习输入坐标关系

PFH 的实现中使用 OBEMBED标准正交基编码DCT系数、QTEMBED 作为可学习嵌入编码量化表

两个embedding层的作用是什么呢 · Issue #20 · qcf-568/DocTamper

self.obembed self.qtembed的的作用是什么呢

https://github.com/qcf-568/DocTamper/issues/20

Tampered-IC13：RGB+LoG

RTM：DCT+SRM+ELA

HIFI-IFDL：RGB+LoG

CAT-Net：RGB+DCT Volume

💡

CAT-Net 另外还使用从JPEG文件中提取的QTable

ObjectFormer：RGB+DCT

MVSS-Net：RGB+Bayor卷积

多任务

Tampered-IC13：场景文本检测

UPOCR：文本分割、文本去除

MVSS-Net：边缘检测、图像分类

Edge-aware Regional Message Passing Controller for Image Forgery Localization：边缘检测

SAFL-Net：边缘检测

对比学习

NCL-IML

SAFL-Net

高分辨率Backbone

HIFI-IFDL

CAT-Net

预训练任务

CAT-Net：双重JPEG检测

ObjectFormer：

基于MS COCO，将物体进行copy-past+泊松混合

基于 Paris Street View，使用 Edgeconnect 模型完成Inpaint

TruFor：基于Flickr与DPReview，使用对比学习完成Noiseprint++训练

Uncertainty

Uncertainty-guided Learning for Improving Image Manipulation Detection

Prototype Learning

ObjectFormer

JPEG

CAT-Net

TruFor

ImageForensicsOSN

其他

SAFL-Net

Locate and Verify

WSCL

伪造检测论文

HIFI-IFDL. Hierarchical Fine-Grained Image Forgery Detection and Localization (CVPR2023)

CVPR 2023 Open Access Repository

https://openaccess.thecvf.com/content/CVPR2023/html/Guo_Hierarchical_Fine-Grained_Image_Forgery_Detection_and_Localization_CVPR_2023_paper.html

GitHub - CHELSEA234/HiFi_IFDL: Hierarchical Fine-Grained Image Forgery Detection and Localization (CVPR2023)

Hierarchical Fine-Grained Image Forgery Detection and Localization (CVPR2023) - GitHub - CHELSEA234/HiFi_IFDL: Hierarchical Fine-Grained Image Forgery Detection and Localization (CVPR2023)

https://github.com/CHELSEA234/HiFi_IFDL

💡

1.引入分割任务辅助分类，因此分割损失使用异常检测的形式。 2.根据篡改类型的层次依赖，设计了分层的细粒度分类方法。

方法

首先通过颜色块和频率块来提取给定输入图像的特征。对于频率块，我们将CNN特征图应用高斯拉普拉斯算子（LoG）。这种方法利用了图像在RGB和频域中同时存在的信息，从而生成伪影。

定位模块采用了自注意机制，其架构如图4所示。由于本文不评估分割指标，而是用于辅助任务，这里使用异常检测的损失函数：

具体来说，我们首先通过对训练集中所有真实图像像素的特征进行平均，预先计算一个参考中心。我们用表示最终掩模预测层的第个像素。是一个预先定义的边界。中的第一项提高了真实像素的特征空间紧凑性。第二项鼓励伪造像素的分布与真实像素相差一定距离。

CAT-Net. Learning JPEG Compression Artifacts for Image Manipulation Detection and Localization (IJCV2022)

GitHub - mjkwon2021/CAT-Net: Official code for CAT-Net: Compression Artifact Tracing Network. Image manipulation detection and localization.

Official code for CAT-Net: Compression Artifact Tracing Network. Image manipulation detection and localization. - GitHub - mjkwon2021/CAT-Net: Official code for CAT-Net: Compression Artifact Tracin...

https://github.com/mjkwon2021/CAT-Net

Learning JPEG Compression Artifacts for Image Manipulation...

Detecting and localizing image manipulation are necessary to counter malicious use of image editing techniques. Accordingly, it is essential to distinguish between authentic and tampered regions...

https://arxiv.org/abs/2108.12947

💡

1. RGB+DCT多流，其中DCT使用 DCT volume representation 表示（也可以像 DocTamper 中添加位置编码）。

2. 使用HRNet作为Backbone避免丢失细微信息。

3. 使用 Double JPEG Detection 任务预训练。另外验证了不使用 DCT volume representation 表示的话，网络无法完成预训练任务。

Motivation

图像采集和编辑过程中留下的JPEG压缩伪影可以判断伪造区域

Method

利用离散余弦变换(DCT)系数来定位图像操作，可以保留压缩伪影。然而，直接将DCT系数提供给CNN是不充分的，因为卷积丢弃了对DCT系数至关重要的空间坐标。我们使用DCT volume representation解决这个问题。此外，我们还提出了一种新的使用双JPEG检测的预训练方法。

DCT volume representation

卷积神经网络无法自动从原始DCT系数中学习压缩伪影，因为卷积操作具有平移不变性，对每个系数的处理都是相同的。然而，对于DCT系数来说，空间坐标是非常重要的。为此，我们引入一个名为的变换，将输入的DCT系数矩阵转换为二进制:

Network Architecture

该网络建立在HRNet之上，以保持高分辨率的表示，并能够在不损失精细细节的情况下捕获整体图像。HRNet使用步幅为2的卷积对特征图进行下采样，而不使用池化层。最近的研究表明，对于需要捕捉细微信号的任务来说，池化是不可取的，因为池化会增强内容并抑制类似噪声的信号。

Double JPEG Detection Pretrain

我们在双JPEG检测任务上引入了一种新的预训练方案，对单张和双张压缩的JPEG图像进行分类。

表2展示了双JPEG检测结果。第一行呈现了四种以RGB像素作为输入的方法。两个通用的计算机视觉网络，ResNet(He et al., 2016)和HRNet(Wang et al., 2020)，都无法学习压缩伪影。同样，ManTra-Net(Wu et al., 2019)的特征提取器部分(图3中的Image Manipulation Trace Feature Extractor)也无法学习，正如研究人员所报道的那样。SRNet(Boroumand et al., 2018)是一个设计用于追踪微小信号的隐写分析网络，但它也无法学习压缩伪影。RGB领域不适合用于检测JPEG双重压缩。接下来的一行揭示了两个通用网络也无法学习压缩伪影，支持我们之前的论断，即当原始的DCT系数直接提供给它们时，CNN无法学习压缩伪影。第三行和最后一行是分别使用DCT直方图和DCT体积的方法。

Experiments

TruFor: Leveraging all-round clues for trustworthy image forgery detection and localization (CVPR2023)

TruFor

https://grip-unina.github.io/TruFor/

💡

1.基于Noiseprint结构训练一个Noiseprint++模型，训练方式为对比学习。 2.将提取的JPEG痕迹与原图一起输入，进行异常检测

Method

我们使用基于变换器的融合架构从RGB图像和学习的噪声敏感指纹中提取高级和低级痕迹。通过仅在真实数据上进行自我监督训练，我们学习了与相机内部和外部处理相关的伪造痕迹。

Noiseprint++

当两个补丁被认为是不同的时候，它们具有以下不同之处： (i) 它们来自不同的源； (ii) 它们从不同的空间位置提取； (iii) 它们具有不同的编辑历史。这些约束的目的是区分： (i) 由不同相机生成的补丁； (ii) 从一个空间位置移动到另一个空间位置的补丁； (iii) 来自经过不同后处理的图像的补丁。

Anomaly localization map

Result

Uncertainty-guided Learning for Improving Image Manipulation Detection (ICCV2023)

💡

1.使用基于不确定性的方式，模型预测均值方差。本文以均值一路预测的分割图与GT的误差，监督不确定性图（不太合理）。 2.二阶段使用不确定性对Featuremap进行增强，二阶段细化。

Motivation

IMD任务面临两个主要挑战：数据不确定性和模型不确定性。首先，数据不确定性源于被操作的工件通常很难识别，这给标注工作带来了巨大的挑战，并导致了噪声标签的出现。其次，模型不确定性是由于同一视觉内容在不同图像中的标签可能不一致而产生的。传统方法和基于深度学习的方法可以生成带有准确标签的操作数据，并在一定程度上缓解了数据不确定性问题。然而，生成的数据与现实世界中的操作数据并不具有相同的分布。因此，这些方法无法有效应对实际案例中的数据不确定性问题。

为了揭示这两种不确定性，有一种直接的解决方法是利用不确定性估计技术对其进行估计。在这些技术中，数据不确定性和模型不确定性分别被称为即兴不确定性和认知不确定性。本文采用蒙特卡洛抽样方法来近似这两种不确定性。

💡

先提出這兩種不確定性，詳細介紹這兩種不確定性，但是後面卻使用模型建模統一的不確定性。😰

Method

我们提出了一种不确定性引导的学习框架（Uncertainty Estimation Network，UEN）来捕获数据和模型的不确定性。UEN由动态不确定性监督（DUS）和不确定性预测精化（UPR）两个关键部分组成。

Uncertainty estimation network

💡

的獲取比較奇怪，這個真的算是不確定性圖麽，應該算是誤差圖？至於其他的是常規操作。

Uncertainty-guided prediction refinement

我们打算通过设计不确定性引导的预测精化 (UPR) 来解决这些困难。具体而言，我们提出将特征嵌入与加权不确定性图进行耦合。具体方法如下所示：

💡

至於其他的都是 BCE 損失。

Result

UPOCR: Towards Unified Pixel-Level OCR Interface (Arxiv2023)

💡

UPOCR引入了文本分割、文本去除作为文本篡改检测的辅助任务，使用Prompt来控制任务目标，大大扩充了训练的数据集。

UPOCR将不同的OCR任务范例统一为图像到图像的转换范例，并采用基于Vision Transformer（ViT）的编码器-解码器架构。编码器-解码器架构的灵感来自于在文本去除领域取得显著成功的ViTEraser（SwinTransformer v2）。通过引入可学习的任务提示，将编码器提取的通用特征表示推向任务特定的空间，赋予解码器任务感知能力。

💡

Tampered-IC13数据集过小，使用预训练和多任务扩充数据集，可以轻易提点

NCL-IML. Pre-training-free Image Manipulation Localization through Non-Mutually Exclusive Contrastive Learning (ICCV2023)

ICCV 2023 Open Access Repository

https://openaccess.thecvf.com/content/ICCV2023/html/Zhou_Pre-Training-Free_Image_Manipulation_Localization_through_Non-Mutually_Exclusive_Contrastive_Learning_ICCV_2023_paper.html

GitHub - Knightzjz/NCL-IML: Offical implement of NCL-IML (Pre-training-free Image Manipulation Localization through Non-Mutually Contrastive Learning), ICCV2023

Offical implement of NCL-IML (Pre-training-free Image Manipulation Localization through Non-Mutually Contrastive Learning), ICCV2023 - GitHub - Knightzjz/NCL-IML: Offical implement of NCL-IML (Pre-...

https://github.com/Knightzjz/NCL-IML

Motivation

深度图像操纵定位（IML）模型面临训练数据不足的问题，因此严重依赖预训练。我们认为，对比学习更适合解决IML的数据不足问题。

篡改块和真实块具有天然的互斥性，但同时包含篡改像素和真实像素的轮廓块对它们是非互斥的。简单地对这些轮廓块进行否弃操作会导致严重的性能损失，因为轮廓块对学习结果是决定性的。

Method 非互斥对比学习( NCL )

在NCL中，为了应对非互斥性，我们首先建立了具有双分支的pivot结构，在训练时不断切换轮廓块在正负之间的作用。

、是正样本和负样本。我们将两个分支的输出写为和。对比损失为：

另外，BCE损失训练分隔图的时候，对边缘的Patch使用更大的权重。

ObjectFormer for Image Manipulation Detection and Localization(CVPR2022)

ObjectFormer for Image Manipulation Detection and Localization

Recent advances in image editing techniques have posed serious challenges to the trustworthiness of multimedia data, which drives the research of image tampering detection. In this paper, we...

https://arxiv.org/abs/2203.14681

💡

使用Query-based方式的Decoder，在过程中使不同Query进行交互，进行一致性学习（对比Query位置的图像是否一致）。

为了捕获在 RGB 域中不再可见的微妙操作痕迹，我们提取图像的高频特征并将其与 RGB 特征组合作为多模态补丁嵌入。此外，我们使用一组可学习的对象原型作为中级表示来对不同区域之间的对象级一致性进行建模，这些原型进一步用于细化补丁嵌入以捕获补丁级一致性。

使用频域信息，并使用prototypes方式学习。训练的时候自己造了数据集。

MVSS-Net: Multi-View Multi-Scale Supervised Networks for Image Manipulation Detection (TPAMI2022)

MVSS-Net: Multi-View Multi-Scale Supervised Networks for Image...

As manipulating images by copy-move, splicing and/or inpainting may lead to misinterpretation of the visual content, detecting these sorts of manipulations is crucial for media forensics. Given...

https://arxiv.org/abs/2112.08935

GitHub - dong03/MVSS-Net: code for Image Manipulation Detection by Multi-View Multi-Scale Supervision

code for Image Manipulation Detection by Multi-View Multi-Scale Supervision - GitHub - dong03/MVSS-Net: code for Image Manipulation Detection by Multi-View Multi-Scale Supervision

https://github.com/dong03/MVSS-Net

GitHub - dddb11/MVSS-Net: Unofficial implementation of MVSS-Net (ICCV 2021) with Pytorch including training code.

Unofficial implementation of MVSS-Net (ICCV 2021) with Pytorch including training code. - GitHub - dddb11/MVSS-Net: Unofficial implementation of MVSS-Net (ICCV 2021) with Pytorch including training...

https://github.com/dddb11/MVSS-Net

💡

使用多输入（RGB图+Bayor卷积）、多任务（分割，分类，边缘预测）策略。

MVSS-Net通过多视角特征学习和多尺度监督来学习对新数据的篡改敏感的通用特征，同时防止对真实图像的误报。

多视角特征学习：包含Bayor卷积的分支
多尺度监督：像素级、图像级、边缘监督

图像级预测中，使用GeM替代GAP，并添加跳越连接

多视图特征学习来联合利用篡改边界伪影和输入图像的噪声视图。（Github不靠谱）

ImageForensicsOSN. Robust Image Forgery Detection over Online Social Network Shared Images (CVPR2022)

openaccess.thecvf.com

https://openaccess.thecvf.com/content/CVPR2022/papers/Wu_Robust_Image_Forgery_Detection_Over_Online_Social_Network_Shared_Images_CVPR_2022_paper.pdf

GitHub - HighwayWu/ImageForensicsOSN

Contribute to HighwayWu/ImageForensicsOSN development by creating an account on GitHub.

https://github.com/HighwayWu/ImageForensicsOSN/tree/main

💡

模型模拟社交网络媒体的有损压缩，分为：Residual Learning 网络直接学习JPEG压缩以及加入对抗噪声。最后使用上述增强的图像训练Detector。

Motivation

广泛使用在线社交网络（OSN）使其成为传输伪造图像、报告假新闻和传播谣言等不良信息的主要渠道。OSN采用的各种有损操作，例如压缩和调整大小，给实现鲁棒的图像伪造检测带来了巨大的挑战。

Method

我们提出了一种噪声建模方案，将OSN噪声分解为两个部分：1）可预测的噪声和2）看不见的噪声。前者旨在模拟已知操作（例如JPEG压缩）带来的可预测损失，其建模依赖于具有残差学习和嵌入式可微JPEG层的深度神经网络(DNN)。而后者主要是针对OSN进行的不可知的行为和/或各种OSN的训练和测试之间的差异。

然而，为看不见的噪声建立合适的模型是不现实的。为了解决这个困难，我们只关注可能导致检测性能恶化的噪声。这种策略自然地孵化了一种新的算法，利用对抗性噪声的核心思想来对看不见的噪声进行建模。

图2展示了用于伪造检测的稳健训练方案的框架，该方案由四个阶段组成。简言之，第一阶段和第二阶段旨在通过可微网络模拟可预测的噪声。第三阶段利用对抗性噪声生成策略对不可见的噪声进行建模。最后，第4阶段进行图像伪造检测器的实际鲁棒训练。

为了与 OSN 平台中的图像处理流程保持一致，我们训练了一个 DNN 模型，该模型显式嵌入一个可微层来描述 JPEG 压缩。在应用了可微分的JPEG层之后，训练的目标函数变为：在我们的训练中，表示具有给定 QF 的可微JPEG层（Facebook采用的范围[71, 95]）。然后就可以直接导出噪声为。然后，对抗方式优化添加的Noise（不可知的噪声）。

💡

S returns the sign of the gradient.

Edge-aware Regional Message Passing Controller for Image Forgery Localization (CVPR2023)

动态图+边缘检测辅助任务

SAFL-Net: Semantic-Agnostic Feature Learning Network with Auxiliary Plugins for Image Manipulation Detection (ICCV2023)

openaccess.thecvf.com

https://openaccess.thecvf.com/content/ICCV2023/papers/Sun_SAFL-Net_Semantic-Agnostic_Feature_Learning_Network_with_Auxiliary_Plugins_for_Image_ICCV_2023_paper.pdf

💡

提出两个即插即用的模块，语义抑制模块用来以抑制特征的语义相关性，分为图像级别以及图像块级别的对比学习，通过预训练出基准语义，然后使用该语义抑制图像级别的语义相关性。并挑选负例中语义接近的地方进行对比学习。边缘引导模块引入边缘检测辅助任务。

Motivation

大多数篡改操作发生在与语义属性表现出强烈相关性的区域。然而，可用训练数据的有限性和偏差性意味着这种相关性不足以准确地表示现实世界场景的分布。例如，篡改区域集中在人区域的数据集可能会导致检测模型显示重要的语义关联，从而导致错误的预测，如图1中用绿色框标记的区域所示。因此，这种语义相关性可能会影响篡改痕迹特征的学习，尽管它可能会提高模型对训练数据的拟合。

Method

提出SAFL-Net，以不作任何修改的通用特征提取网络为骨干，通过模块化辅助任务约束特征提取器学习语义不可知的特征，从而防止有限训练数据内与语义信息相关的偏差，并提高泛化能力。

Semantic Suppression Module

我们建议将从语义分割模型中提取的特征定义为基准语义表示，作为限制语义信息的参考。

使用两个预训练的Encoder来pretrain ConvBlock：

然后最小化和之间的相似度：

Patch-level Contrast

如果图像patch中95%以上的像素被篡改，则将该图像patch视为篡改区域，进行对比学习。正例是其他篡改区域，负例是为篡改区域中，语义与Anchor区域最为接近的一块。

是篡改区域。是中语义最相近的区域。

Boundary Guidance Module

使用软边界监督，类似SDF

Locate and Verify: A Two-Stream Network for Improved Deepfake Detection (MM2023)

分割任务辅助分类，分割任务使用弱监督实现

WSCL. Towards Generic Image Manipulation Detection with Weakly-Supervised Self-Consistency Learning. (ICCV2023)

我们提出了弱监督的图像篡改检测方法，只需要二值图像级别的标签（真实或篡改）用于训练目的。我们学习了两个一致性属性：多源一致性（MSC）和区块间一致性（IPC）。

MSC利用不同的与内容无关的信息，并通过在线伪标签生成和细化过程实现跨源学习。

IPC通过全局配对区块-区块关系推理来发现完整的篡改区域。

Adaptive Pooling for Image-Level Detection

全局最大池化存在几个明显的缺点。首先，它只能检测到最有区别性的部分，但无法检测到操纵的全部范围。其次，损失函数只通过最大响应进行反向传播，阻碍了模型的训练。我们提出了一种自适应池化方法，使用Otsu的方法将预测图像划分为两组。我们通过自适应池化确定的图像级预测值是高响应组的平均值。

Learning Multi-Source Consistency

常见的弱监督方式，一致性。

Learning Inter-Patch Consistency

简单来说是约束特征图每个位置的相似度矩阵，和MSC得到的GT一致。也是常见的弱监督方式。

Exp

ReLoc: A Restoration-Assisted Framework for Robust Image Tampering Localization (TIFS2023)

ReLoc: A Restoration-Assisted Framework for Robust Image Tampering...

With the spread of tampered images, locating the tampered regions in digital images has drawn increasing attention. The existing image tampering localization methods, however, suffer from severe...

https://arxiv.org/abs/2211.03930

💡

使用自编码器重建原图，来去除后处理痕迹，再使用重建的图像进行篡改检测。

Motivation

现有的图像篡改定位方法在对篡改图像进行一定的后处理操作时，由于后处理操作会使篡改痕迹发生畸变，导致其性能严重下降。

为了提高对抗后处理的鲁棒性，最近的一些工作尝试在训练阶段引入失真图像。然而，由于篡改痕迹经过后处理已经失真，很难学习到具有判别性的特征。如图1 - c所示，即使直接利用失真图像对定位网络进行微调，也不能很好地检测出篡改区域。

我们的核心思想是，一旦经过后处理扭曲的篡改痕迹能够被恢复或重新增强，就能够学习有效的篡改定位表示。

Method

恢复模块的目标是通过去除扭曲痕迹，从扭曲的图像中恢复出高质量的对应物。为了更有效地捕捉微小的篡改痕迹，定位模块将恢复后的图像作为输入。我们使用像素级损失、图像级损失和面向取证的定位损失来训练恢复模块，以同时考虑图像的视觉质量和篡改的定位效果。我们还建议采用交替的优化方式来训练恢复和定位模块，以提高训练过程的稳定性和性能。

Towards Effective Image Manipulation Detection with Proposal Contrastive Learning

PCL

Sandy-Zeng • Updated May 24, 2024

💡

不是分割的方法，使用多输入和对比学习策略。对比学习使用两个模态的特征作为正样本。

Motivation

现有的大多数方法主要关注于从篡改图像中提取全局特征，而忽略了单个篡改图像中篡改区域和真实区域之间的局部特征关系。

Method

我们提出了提议对比学习（PCL）用于有效的图像操作检测。我们的PCL通过从RGB和噪声视图中提取两种类型的全局特征，构建了一个双流架构。为了进一步提高判别力，我们通过基于提议的正/负样本对的吸引/排斥对比学习任务来挖掘局部特征之间的关系。