篡改图像检测论文

date

Oct 15, 2024

Last edited time

Oct 15, 2024 05:48 AM

status

Published

slug

篡改图像检测论文 - Part2

(MM-2022) JPEG Compression-aware Image Forgery Localization

JPEG Compression-aware Image Forgery Localization | Proceedings of the 30th ACM International Conference on Multimedia

You will be notified whenever a record that you have chosen has been cited.

https://dl.acm.org/doi/abs/10.1145/3503161.3547749

JPEG Compression-aware Image Forgery Localization | Proceedings of the 30th ACM International Conference on Multimedia

Intro

问题陈述：现有的图像伪造定位方法在 JPEG 压缩的情况下性能下降。

动机：压缩表示包含有价值的信息，可以作为 JPEG 伪造定位的重要线索。

方法概述：

学习区分不同压缩级别的压缩表示。

设计一个 JPEG 压缩感知图像伪造定位网络，利用学习到的表示。

具体步骤：

使用小波变换提取频率域压缩表示。

通过对比学习策略区分不同压缩级别。

引入 JPEG 压缩感知图像伪造定位网络来处理不同压缩质量因子的伪造图像。

添加边界校正分支以减轻 JPEG 压缩的边缘伪影。

创新性：首次尝试在图像伪造定位任务中利用降级信息。

Method

Exp

(TIFS-2022) Detect and Locate: Exposing Face Manipulation by Semantic- and Noise-level Telltales

当前人脸伪造检测方法存在以下局限：

鲁棒性不足： 一些方法依赖于高级语义线索（如眨眼频率、头部姿势），忽略了低级信号变化，导致对不同伪造技术的鲁棒性不足。

定位能力欠缺： 大多数方法只关注真假判断，忽略了伪造区域的定位，这对于揭示伪造者的意图至关重要。

视频质量影响： 现有方法对低质量视频的检测准确率较低，限制了实际应用。

方法概述：

语义级指导： 利用人脸伪造过程中通常采用的将新面部与背景融合的步骤，通过语义分割模型识别出伪造区域。

噪声级指导： 分析伪造区域和真实区域的噪声模式差异，利用噪声特征进行辅助判断。

多尺度特征提取： 从卷积神经网络的浅层、中层和深层提取特征图，获取低、中、高级别的信息。

特征融合： 将语义级和噪声级特征进行融合，用于判断输入人脸的真实性并定位伪造区域。

受 PRNU 范式的启发，我们探索了人脸图像取证伪影，并将其作为人脸操纵检测的低级线索。为此，我们利用基于 小波的滤波器 提取噪声图。噪声图预测模块旨在使提取的多尺度特征与高级语义内容（即面部外观）无关，并为人脸操纵检测提供补充线索。最终，网络使用原始图像作为输入来预测噪声图像。

💡

M. K. Mihcak, I. Kozintsev, and K. Ramchandran, “Spatially adaptive statistical modeling of wavelet image coefficients and its application to denoising,” in 1999 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings. ICASSP99 (Cat. No. 99CH36258), vol. 6. IEEE, 1999, pp. 3253–3256.

(CVPR-2024) UnionFormer: Unified-Learning Transformer with Multi-View Representation for Image Manipulation Detection and Localization

Intro

与强调高级语义信息的不合传统的检测或分割任务不同，抵制图片被篡改检测优先考虑区分真实性而不是语义内容的局部语义无关的线索。因此，图像篡改检测和定位需要学习可概括的多尺度不一致性特征。传统的特征编码方法不能充分捕捉破坏痕迹，而 UnionFormer 提出了一种边界敏感特征交互网络 (BSFI-Net)，专门用于提取取证工件。BSFI-Net 从 RGB 和噪声视图中提取篡改特征，增强了对边界伪影的响应性，并调节了不同尺度的空间一致性。

UnionFormer 采用双流结构，分别处理 RGB 和噪声视图，并通过对比监督增强两个流之间的协作。此外，该框架将对象一致性建模与篡改检测和定位相结合，形成一个三任务的统一学习过程。通过多尺度监督，UnionFormer 学习了一个统一的操纵判别表示，集成了来自三种视图的信息，实现了高性能的图像同时篡改检测和定位。

Method

(CVPR-2024)DiffForensics: Leveraging Diffusion Prior to Image Forgery Detection and Localization

Intro

我们提出一个简单的假设，即有效的取证方法应侧重于图像的mesoscopic特性。基于扩散模型，我们引入了 DiffForensics，这是一个用于图像取证检测和定位 (IFDL) 任务的两阶段自监督框架。 DiffForensics 首先采用配备编码器-解码器结构的自监督去噪扩散范式。预训练的编码器（例如，在 ADE-20K 中）被冻结以继承一般图像特征的宏观特征，同时鼓励解码器学习图像的微观特征表示，从而使模型能够专注于 mesoscopic 表示。预训练的模型用作先验，并针对带有定制边缘梯度增强模块 (EGEM) 的 IFDL 任务进行了进一步微调。EGEM 在被处理的区域内逐步突出边界特征，以更高的精度优化篡改区域定位。

事实上，基于伪像（例如，图像噪声）的微观分析无法应用于社交媒体环境，因为后期处理必然会削弱取证痕迹。同样，在较高的语义层面上（即宏观层面），人眼很难区分伪造图像。因此，我们建议采用一种中间方法。

Method

为实现此目标，我们提出了 DiffForensics，这是一种用于 IFDL 任务的新型两阶段自监督方法，包括一个编码器和一个解码器。训练过程首先进行自监督去噪扩散预训练，然后进行多任务微调以实现 IFDL。在第一阶段，我们冻结在分割任务（例如 ADE20K）上预训练的编码器，以保留提取宏观语义特征的能力。与此同时，解码器通过自监督去噪扩散范式学习与伪造图像相关的微观特征。通过分别专注于宏观和微观特征的编码器和解码器，我们获得了可以学习具有中观特征的表示的模型。

与第一阶段相反，我们在第二阶段对预训练模型（编码器和解码器）进行微调，并使用伪造图像进行监督。在此，将多尺度边缘梯度增强模块 (EGEM) 融入解码器中，以从粗到细地突出篡改区域的痕迹。大量的实验表明，我们的方法在泛化性能和鲁棒性方面优于多个公共数据集上的最先进的竞争对手。

Exp

(CVPR-2024) IML-VIT: Benchmarking Image Manipulation Localization by Vision Transformer

IML-ViT

SunnyHaze • Updated Sep 23, 2024

动机

探索图像操纵检测（IML）中利用人工制品的方法。

考虑使用 Transformer 模型（特别是 ViT）来捕获人工制品，因为它们的自我注意机制可以自然地比较图像的操纵和真实区域之间的差异。

由于数据集限制，目前缺乏基于 ViT 的纯 IML 方法作为基准，而 CNN 仍然主导着整个任务。

方法

IML-ViT 方法包括以下主要组成部分：

高分辨率 ViT：使用窗口注意力替换全局注意力块，以接收高分辨率输入，并使用 ImageNet-1k MAE 进行预训练。

特征金字塔：引入一个简单的特征金字塔网络，实现多尺度监督。

形态边缘损失：提出一种基于形态的边缘损失策略，确保边缘监督。

实验

(CVPR-2024) Towards Modern Image Manipulation Localization: A Large-Scale Dataset and Novel Methods

动机

数据匮乏问题：现有研究面临高质量数据严重匮乏的问题，限制了图像篡改检测技术的发展。

高成本与耗时：手动创建高质量数据的过程既耗时又昂贵，进一步加剧了数据不足的困境。

方法

数据集

最初，采用分类器来判断输入图像对是否属于SDG或SPG。该分类器可以通过自监督学习有效地利用未标记的图像进行训练。其次，差异感知语义分割模型利用图像对及其差异图，准确地进行受限操作的定位，以识别SPG。此外，语义对齐相关匹配模型通过更好的语义对齐提升了SDG的性能。QES可以自动评估注释的质量，并在没有真实数据的情况下排除不良注释。

Constrained Image Manipulation Localization 模型训练

💡

与图像操控定位相比，受限图像操控定位（CIML）在给定真实图像的额外帮助下，能够更准确地定位伪造的图像区域。

文章提出了一种新颖的范式——类别感知自动标注（CAAA），该方法旨在自动对网络上大量手动篡改的图像进行像素级的精确标注。CAAA范式，有效地将图像对分为共享供体组（SDG）和共享探测组（SPG），并针对不同组采用不同的处理策略。

💡

这篇文章认为，Constrained Image Manipulation Localization 的输入数据可以分为两种类型。SDG 图像的相似区域被视为前景，它们具有特定的相似形状和独特的特征。相比之下，SPG 图像的相似区域则属于背景，这些区域通常缺乏足够独特的特征以进行准确的关联匹配。因此，在基于关联的模型中，这些区域可能会引起混淆，尤其是在复杂场景中。

Model Architecture

Difference-Aware Semantic Segmentation

在理想情况下，真实图像与伪造图像之间的绝对差异应该准确地反映出伪造区域。然而，图像在传输过程中常常遭受降级，导致利用绝对差异进行精确注释变得困难。例如，由于传输降级，图像差异图中的几乎所有区域都是非零的，即使通过OTSU算法进行二值化处理，真实区域仍然会被高亮显示，尤其在边缘等高频区域更为明显。为了解决这一问题，我们提出了一种方法，通过利用图像的语义信息来去噪差异图。具体而言，我们建议将真实图像、伪造图像及其差异图的通道维度连接后输入到语义分割模型中，以提高伪造区域的准确识别。

Semantic Aligned Correlation Matching

该模块的作用是通过改善语义对齐来提升基于相关性的模型性能，尤其是在处理经过重缩放操作后的图像时。由于原始图像和伪造图像在特征级别上的语义不一致，导致传统方法在特征匹配时表现不佳。以下是该模块的主要流程：

特征提取：从主干模型中提取不同分辨率的特征图。

全局表示计算：对最高级别的特征图进行平均池化，计算全局表示。

特征融合：通过卷积层将全局表示与最高级别特征融合。

自顶向下融合：类似于特征金字塔网络（FPN），以自顶向下的方式融合特征图，使低级特征增强语义信息，为与高级特征匹配做好准备。

交叉级别特征相关性计算：计算输入图像对的特征之间的相关性，允许在不同特征级别之间进行匹配，而不是仅限于同一特征级别。

特征处理与预测：将计算得到的相关特征进行拼接和通道减少，最后输入卷积解码器进行最终预测。

通过这一流程，该模块能够自适应选择最佳匹配路径，从而改善语义对齐，提升模型的泛化能力和性能。

质量评估分数（QES）

质量评估分数（Quality Evaluation Score，QES）进一步筛选和过滤掉不可靠的注释，以确保高质量的自动注释结果。尽管SPG（特定生成器）的注释质量已经很高，但SDG（特定数据生成器）的注释仍存在一些不满意的情况，因此需要对其进行评估和过滤。

QES的核心思想是高质量的预测通常具有较高的置信度和清晰的边缘。通过检查 mask 的置信度和清晰度，可以评估其质量并排除不好的预测。

💡

只能排除一些明显质量很差的预测但是错误预测无法排除

Exp

(AAAI-2024) A New Benchmark and Model for Challenging Image Manipulation Detection

GitHub - ZhenfeiZ/CIMD

Contribute to ZhenfeiZ/CIMD development by creating an account on GitHub.

https://github.com/ZhenfeiZ/CIMD

Dataset

数据集的动机

现有的图像取证数据集在检测小区域伪造方面存在局限性，例如图像质量差、图像多样性不足和伪造策略单一。本文提出的数据集旨在解决这些问题，提供一个全面且具有挑战性的验证数据集，用于评估小区域伪造检测模型在压缩和未压缩场景中的性能。

与其他数据集的不同

高图像质量：原始图像由专业相机在不同的季节环境中拍摄，确保了丰富的细节和复杂的光照条件。

图像多样性：数据集包含自然场景、城市景观、人像和物体特写，提供了广泛的图像内容。

伪造策略丰富：数据集包括图像编辑和压缩伪造，并提供了多种后处理方法，以创建更具挑战性的伪造。

独立子集：CIMD 分为两个独立子集：CIMD-Raw 用于评估图像编辑方法，CIMD-Compressed 用于评估压缩方法。

16 位图像：数据集提供 16 位图像对，支持高达 248 万亿种颜色，以适应未来的图像处理技术。

数据集详细信息

CIMD-Raw 子集

600 对未压缩的 TIFF 图像（2048 × 1365 分辨率）

包含复制移动、对象移除和拼接伪造

五种后处理方法：缩放、旋转、色阶/曲线增强、照明变化和颜色重新分配

提供真值掩码

CIMD-Compressed 子集

200 对双 JPEG 压缩图像（2048 × 1365 分辨率）

质量因子 (QF) 均匀分布在 50 至 100 之间

包含拼接伪造，伪造区域经过单次压缩，而背景经过双次压缩

提供二进制掩码和用于压缩的 QF 值

方法

该方法采用双分支 IMD 网络，包含 RGB 和频率流。

特征提取：使用 HRNet 作为特征提取器，在四个不同尺度上进行并行处理。

定位细微篡改区域：应用 Atrous Spatial Pyramid Pooling (ASPP) 和注意力机制来精确定位细微篡改区域。

频率流：将量化的 DCT 系数、Q 矩阵和来自多次重新压缩的新型残差 DCT 系数输入骨干网，以检测双重压缩伪影。无论 QF 是否相同，此设计都能发挥作用。

热图聚合：引入自适应加权热图聚合设计，使用软选择融合两个分支生成的热图。

频率流

基于 DCT 系数在压缩后发生变化，随着系数计数的增加，逐渐聚焦在篡改区域上。因此，与 DTD 相比，多了一步使用 QTB 进行多次压缩，引导关注不稳定的区域。

Exp

💡

只有在自己数据集上的指标, 完全可以面向模型设计数据集🤫

(AAAI-2024) MGQFormer: Mask-Guided Query-Based Transformer for Image Manipulation Localization

MGQFormer: Mask-Guided Query-Based Transformer for Image Manipulation Localization

Deep learning-based models have made great progress in image tampering localization, which aims to distinguish between manipulated and authentic regions. However, these models suffer from inefficient training. This is because they use ground-truth mask labels mainly through the cross-entropy loss, which prioritizes per-pixel precision but disregards the spatial location and shape details of manipulated regions. To address this problem, we propose a Mask-Guided Query-based Transformer Framework (MGQFormer), which uses ground-truth masks to guide the learnable query token (LQT) in identifying the forged regions. Specifically, we extract feature embeddings of ground-truth masks as the guiding query token (GQT) and feed GQT and LQT into MGQFormer to estimate fake regions, respectively. Then we make MGQFormer learn the position and shape information in ground-truth mask labels by proposing a mask-guided loss to reduce the feature distance between GQT and LQT. We also observe that such mask-guided training strategy has a significant impact on the convergence speed of MGQFormer training. Extensive experiments on multiple benchmarks show that our method significantly improves over state-of-the-art methods.

https://ojs.aaai.org/index.php/AAAI/article/view/28520

动机：

现有的图像处理定位网络存在两个缺点：

缺乏对全局信息的获取能力。

仅利用交叉熵损失，忽略了操纵区域的空间位置和形状细节。

提出的方法：

为了解决这些缺点，本文提出了 Mask-Guided Query-based Transformer 框架 (MGQFormer)：

基于查询的变压器：使用可学习查询令牌 (LQT) 来选择与自身高度相似的像素嵌入，从而利用变压器的注意力机制。

掩码引导：利用真实掩码作为指导查询令牌 (GQT)，以引导 LQT 专注于伪造区域。

掩码引导损失：引入掩码引导损失，以减小 GQT 和 LQT 之间的特征距离，从而强制 LQT 专注于伪造区域的位置和形状。

💡

其实就是一个分割版本的 DN-DETR

(AAAI-2024) Learning Discriminative Noise Guidance for Image Forgery Detection and Localization

Learning Discriminative Noise Guidance for Image Forgery Detection and Localization

This study introduces a new method for detecting and localizing image forgery by focusing on manipulation traces within the noise domain. We posit that nearly invisible noise in RGB images carries tampering traces, useful for distinguishing and locating forgeries. However, the advancement of tampering technology complicates the direct application of noise for forgery detection, as the noise inconsistency between forged and authentic regions is not fully exploited. To tackle this, we develop a two-step discriminative noise-guided approach to explicitly enhance the representation and use of noise inconsistencies, thereby fully exploiting noise information to improve the accuracy and robustness of forgery detection. Specifically, we first enhance the noise discriminability of forged regions compared to authentic ones using a de-noising network and a statistics-based constraint. Then, we merge a model-driven guided filtering mechanism with a data-driven attention mechanism to create a learnable and differentiable noise-guided filter. This sophisticated filter allows us to maintain the edges of forged regions learned from the noise. Comprehensive experiments on multiple datasets demonstrate that our method can reliably detect and localize forgeries, surpassing existing state-of-the-art methods.

https://ojs.aaai.org/index.php/AAAI/article/view/28608

动机：

当前的图像伪造检测方法未能充分利用噪声中的不一致性。

提出了一种新的噪音引导方案，以提高图像伪造检测和定位的性能。

方法：

第一阶段：噪声提取

通过降噪网络和 Bayar 卷积构建噪声提取器。优化噪声提取器以扩大真实区域和伪造区域之间的噪声分布差异，方法是基于统计约束（JS 散度）。

第二阶段：RGB 和噪声数据融合

跨注意力引导滤波器 (CAGF) 类似于引导滤波，通过引导滤波的保边能力和局部线性和边缘保留，CAGF 集成了 RGB 和噪声域中的互补信息。此外，CAGF 确保将结构信息从噪声域传递到 RGB 域。

Cross-attention-based guided filter

💡

大体的结构是一样的, 但是起的作用估计不太一样… 没有代码, 消融实验不敢相信

Exp

(Arxiv-2024) Rethinking Image Forgery Detection via Contrastive Learning and Unsupervised Clustering

GitHub - HighwayWu/FOCAL: Rethinking Image Forgery Detection and Localization

Rethinking Image Forgery Detection and Localization - HighwayWu/FOCAL

https://github.com/HighwayWu/FOCAL

动机：

现有基于分类的图像伪造检测方法忽略了伪造和原始像素的相对定义，导致不同图像中的伪造（原始）区域被不必要地混合到同一类别中。这会混淆分类器，导致不稳定的训练和较差的检测性能。

方法

本文提出了一种称为 FOCAL（FOrensic ContrAstive cLustering）的新范式，用于图像伪造检测。FOCAL 采用了以下方法：

像素级对比学习：

充分利用伪造掩码中像素级的正负类别的区别，进行像素级的对比学习。

以逐图像的方式进行监督，避免不同图像之间特征的相互影响。

即时无监督聚类：

采用即时无监督聚类算法 HDBSCAN，将学习到的特征聚类为伪造/原始类别。

聚类模块没有可训练参数，不参与训练过程。

直接特征级融合：

通过直接融合特征，在无需重新训练的情况下进一步提高性能。

Exp

(Arxiv-2024) Manipulation Mask Generator: High-Quality Image Manipulation Mask Generation Method Based on Modified Total Variation Noise Reduction

GitHub - ndyysheep/MTVNR: undergraduate work at SiChuan university

undergraduate work at SiChuan university. Contribute to ndyysheep/MTVNR development by creating an account on GitHub.

https://github.com/ndyysheep/MTVNR

本文的动机是解决图像篡改检测领域面临的挑战，即传统方法的局限性、深度学习在该领域中的潜力以及缺乏高质量数据集来训练和验证深度学习模型。因此，本文旨在通过创建和利用一个新的、大规模的真实世界图像篡改数据集，来促进图像篡改检测领域的深度学习研究。

本文提出了一个新的蒙版生成方法，以从篡改图像中提取操纵区域。我们从包含篡改图像的在线论坛（如百度 PS 贴吧）中收集图像。从不同的帖子中保存原始图像和篡改图像，可以快速积累大量数据集。通常，通过从原始图像中减去篡改图像来识别篡改图像和原始图像之间的差异。然而，用户通常对图像进行整体编辑，导致图像差值中出现大量噪声，甚至整个图像变为噪声。采用全变差（TV）去噪方法可以有效缓解此问题。该方法结合了字符识别技术和切换操作，显著保留了文本信息，同时减少了噪声。

(Arxiv2024) GIM: A Million-scale Benchmark for Generative Image Manipulation Detection and Localization

GitHub - chenyirui/GIM: This repository is the official repository of the GIM.

This repository is the official repository of the GIM. - chenyirui/GIM

https://github.com/chenyirui/GIM

我们提出了 GIM 数据集，它具有以下优点：1）规模大，包含超过一百万对 AI 生成图像和真实图像；2）图像内容丰富，涵盖范围广泛的图像类别；3）生成方法多样，使用最先进的生成器和各种图像处理任务生成图像。

我们使用了三个跨生成器数据集 GIM-SD（Stable Diffusion 对 ImageNet 进行操作后的数据，以下类推）、GIM-GLIDE、GIM-DDNM 和一个跨分布数据集 GIM-VOC（Stable Diffusion 对 VOC 进行操作后的数据）。

数据准备：

收集大规模自然图像数据集: 以 ImageNet 和 VOC 为起点

提取局部操作掩码: 利用分类属性或用户查询，使用零样本分割网络 [33] 从图像中提取局部操作掩码。

生成提示: 对于复制粘贴篡改，将图像类别嵌入到替换提示中，并与 ChatGPT 交互，返回一个近似的类别。然后将近似类别嵌入到修复提示中。生成模型结合原始图像、操作掩码和修复提示，生成复制粘贴生成篡改结果。对于删除篡改，生成模型仅需要原始图像和操作掩码。

准备训练数据: 从 ImageNet 中为每个生成模型选择 100 个不同的标签，创建篡改图像作为 GIM 基准测试的训练数据。

准备测试数据: 使用完整的测试数据集作为 GIM 基准测试的测试数据。

模型评估:

评估分类性能: 使用准确率 (Cls. acc) 评估分类结果。

评估定位性能: 使用操作掩码上的像素级 AUC 和 F1 分数评估定位性能。

跨生成器泛化测试: 在 GIM-SD 训练集上训练模型，并在 GIM-GLIDE、GIM-DDNM 和 GIM-VOC 测试集上进行测试，以评估 IMDL 的泛化性能。

混合生成器综合测试: 模型在 GIM-SD、GIM-GLIDE 和 GIMDDNM 训练集上联合训练，并在对应的测试数据集上分别进行测试。

方法：考虑到生成式操纵的特殊性，我们将在 4.1 节提出 ShadowTracer，在 4.2 节提出频域-空间块 (FSB)，并在 4.3 节提出多窗口异常建模模块 (MWAM)。

(Arxiv 2024) IMDL-BenCo: Comprehensive Benchmark and Codebase for Image Manipulation Detection & Localization

GitHub - scu-zjz/IMDLBenCo: A comprehensive benchmark & codebase for Image manipulation detection/localization.

A comprehensive benchmark & codebase for Image manipulation detection/localization. - scu-zjz/IMDLBenCo

https://github.com/scu-zjz/IMDLBenCo

(Arxiv 2024) Generalized Tampered Scene Text Detection in the era of Generative AI

研究目标：为了解决检测未见过的篡改场景文本伪造类型的问题，文章提出了一项新任务——开放集篡改场景文本检测，旨在评估取证模型识别已见和未见伪造类型的能力。

数据集构建：作者整理了一个高质量的数据集OSTF，包含八种文本编辑模型篡改的文本，以全面评估模型的开放集泛化能力。

新颖的预训练范式：引入了一种通过微妙改变图像中选定文本纹理的预训练方法 Texture Jitter，以训练模型识别篡改区域，从而解决高质量训练数据稀缺的问题，并提升模型的细粒度感知能力。

DAF框架：提出了DAF框架，强调通过区分真实文本和篡改文本的特征来改善开放集泛化，而不仅仅是关注篡改文本的特征。

动机

新数据集 目前，Tampered-IC13数据集（Wang et al. 2022）被广泛用作基准，测试篡改场景文本检测方法。然而，现有的Tampered-IC13数据集存在一个重要缺陷：它无法真实反映模型在现实世界场景中的性能。该数据集中的所有篡改文本均由最古老的文本编辑模型SRNet（Wu et al. 2019）伪造，缺乏对未知篡改方法和未知场景的泛化能力评估。

新方法 现有的篡改场景文本检测方法在开放集泛化能力方面表现不佳。经过已知伪造品类型训练的取证模型，通常在面对未见过的伪造品类型时，性能会显著下降。

数据集

我们手动构建了一个全面且高质量的开放集场景文本篡改检测基准，命名为开放集场景文本取证（OSTF）。

篡改方法:

考虑三种生成篡改方法：conventional, font rendering, diffusion。

选用八种文本编辑方法。

数据来源:

使用选定的八种文本编辑方法伪造来自 ICDAR2013 的文本图像。

为了进行跨源数据集评估，使用 UDiffText 编辑来自 TextOCR 验证集的文本图像。

(跨源+跨方法)使用 TextDiffuser 编辑来自 ICDAR2017 和 ReCTS 验证集的文本图像。

Texture Jitter

我们提出了一种简单而有效的方法，称为文本抖动（Textual Jitter），即轻微改变随机选择文本的纹理，同时保持其宏观外观不变（处理后的文本与原始文本几乎相同）。

💡

这不就是 SBI

Difference Aware Forensics

未见伪造品上的性能下降主要是由于训练目标，这是一个常见的二分类任务。正如图4左上角所示，在训练过程中，模型仅学习了已见真实类（蓝色圆圈）和篡改类（黄色圆圈）的特定特征。当文本被未见的编辑方法篡改时，编辑风格是模型之前没有遇到过的，因此篡改文本（红色圆圈）的特征与已见特征不同。这使得分类器难以处理未见伪造品的新特征，从而导致性能下降。