篡改图像检测论文 - Part2
date
Oct 15, 2024
Last edited time
Oct 15, 2024 05:48 AM
status
Published
slug
篡改图像检测论文 - Part2
tags
CV
DL
summary
type
Post
origin
Field
Plat
(MM-2022) JPEG Compression-aware Image Forgery Localization(TIFS-2022) Detect and Locate: Exposing Face Manipulation by Semantic- and Noise-level Telltales(CVPR-2024) UnionFormer: Unified-Learning Transformer with Multi-View Representation for Image Manipulation Detection and Localization(CVPR-2024)DiffForensics: Leveraging Diffusion Prior to Image Forgery Detection and Localization(CVPR-2024) IML-VIT: Benchmarking Image Manipulation Localization by Vision Transformer(CVPR-2024) Towards Modern Image Manipulation Localization: A Large-Scale Dataset and Novel Methods(AAAI-2024) A New Benchmark and Model for Challenging Image Manipulation Detection(AAAI-2024) MGQFormer: Mask-Guided Query-Based Transformer for Image Manipulation Localization(AAAI-2024) Learning Discriminative Noise Guidance for Image Forgery Detection and Localization(Arxiv-2024) Rethinking Image Forgery Detection via Contrastive Learning and Unsupervised Clustering(Arxiv-2024) Manipulation Mask Generator: High-Quality Image Manipulation Mask Generation Method Based on Modified Total Variation Noise Reduction(Arxiv2024) GIM: A Million-scale Benchmark for Generative Image Manipulation Detection and Localization(Arxiv 2024) IMDL-BenCo: Comprehensive Benchmark and Codebase for Image Manipulation Detection & Localization(Arxiv 2024) Generalized Tampered Scene Text Detection in the era of Generative AI (TMM 2024) Image-based Freeform Handwriting Authentication with Energy-oriented Self-Supervised Learning文档相关(ICCV-2023) Foreground and Text-lines Aware Document Image Rectification退化相关(WACV-2023) Semantic Segmentation of Degraded Images Using Layer-Wise Feature Adjustor(TIP-2020) Degraded Image Semantic Segmentation With Dense-Gram Networks(CVPR-2024)DocRes: A Generalist Model Toward Unifying Document Image Restoration Tasks 原型相关(WACV-2023) ProtoSeg: Interpretable Semantic Segmentation with Prototypical PartsFusion 相关(ICML-2023) Provable Dynamic Fusion for Low-Quality Multimodal Data
(MM-2022) JPEG Compression-aware Image Forgery Localization
(TIFS-2022) Detect and Locate: Exposing Face Manipulation by Semantic- and Noise-level Telltales
当前人脸伪造检测方法存在以下局限:
- 鲁棒性不足: 一些方法依赖于高级语义线索(如眨眼频率、头部姿势),忽略了低级信号变化,导致对不同伪造技术的鲁棒性不足。
- 定位能力欠缺: 大多数方法只关注真假判断,忽略了伪造区域的定位,这对于揭示伪造者的意图至关重要。
- 视频质量影响: 现有方法对低质量视频的检测准确率较低,限制了实际应用。
方法概述:
- 语义级指导: 利用人脸伪造过程中通常采用的将新面部与背景融合的步骤,通过语义分割模型识别出伪造区域。
- 噪声级指导: 分析伪造区域和真实区域的噪声模式差异,利用噪声特征进行辅助判断。
- 多尺度特征提取: 从卷积神经网络的浅层、中层和深层提取特征图,获取低、中、高级别的信息。
- 特征融合: 将语义级和噪声级特征进行融合,用于判断输入人脸的真实性并定位伪造区域。
受 PRNU 范式的启发,我们探索了人脸图像取证伪影,并将其作为人脸操纵检测的低级线索。为此,我们利用基于 小波的滤波器 提取噪声图。噪声图预测模块旨在使提取的多尺度特征与高级语义内容(即面部外观)无关,并为人脸操纵检测提供补充线索。最终,网络使用原始图像作为输入来预测噪声图像。
M. K. Mihcak, I. Kozintsev, and K. Ramchandran, “Spatially adaptive statistical modeling of wavelet image coefficients and its application to denoising,” in 1999 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings. ICASSP99 (Cat. No. 99CH36258), vol. 6. IEEE, 1999, pp. 3253–3256.
(CVPR-2024) UnionFormer: Unified-Learning Transformer with Multi-View Representation for Image Manipulation Detection and Localization
Intro
与强调高级语义信息的不合传统的检测或分割任务不同,抵制图片被篡改检测优先考虑区分真实性而不是语义内容的局部语义无关的线索。因此,图像篡改检测和定位需要学习可概括的多尺度不一致性特征。传统的特征编码方法不能充分捕捉破坏痕迹,而 UnionFormer 提出了一种边界敏感特征交互网络 (BSFI-Net),专门用于提取取证工件。BSFI-Net 从 RGB 和噪声视图中提取篡改特征,增强了对边界伪影的响应性,并调节了不同尺度的空间一致性。
UnionFormer 采用双流结构,分别处理 RGB 和噪声视图,并通过对比监督增强两个流之间的协作。此外,该框架将对象一致性建模与篡改检测和定位相结合,形成一个三任务的统一学习过程。通过多尺度监督,UnionFormer 学习了一个统一的操纵判别表示,集成了来自三种视图的信息,实现了高性能的图像同时篡改检测和定位。
Method
(CVPR-2024)DiffForensics: Leveraging Diffusion Prior to Image Forgery Detection and Localization
Intro
我们提出一个简单的假设,即有效的取证方法应侧重于图像的mesoscopic特性。基于扩散模型,我们引入了 DiffForensics,这是一个用于图像取证检测和定位 (IFDL) 任务的两阶段自监督框架。 DiffForensics 首先采用配备编码器-解码器结构的自监督去噪扩散范式。预训练的编码器(例如,在 ADE-20K 中)被冻结以继承一般图像特征的宏观特征,同时鼓励解码器学习图像的微观特征表示,从而使模型能够专注于 mesoscopic 表示。 预训练的模型用作先验,并针对带有定制边缘梯度增强模块 (EGEM) 的 IFDL 任务进行了进一步微调。EGEM 在被处理的区域内逐步突出边界特征,以更高的精度优化篡改区域定位。
事实上,基于伪像(例如,图像噪声)的微观分析无法应用于社交媒体环境,因为后期处理必然会削弱取证痕迹。同样,在较高的语义层面上(即宏观层面),人眼很难区分伪造图像。因此,我们建议采用一种中间方法。
Method
为实现此目标,我们提出了 DiffForensics,这是一种用于 IFDL 任务的新型两阶段自监督方法,包括一个编码器和一个解码器。训练过程首先进行自监督去噪扩散预训练,然后进行多任务微调以实现 IFDL。在第一阶段,我们冻结在分割任务(例如 ADE20K) 上预训练的编码器,以保留提取宏观语义特征的能力。与此同时,解码器通过自监督去噪扩散范式学习与伪造图像相关的微观特征。通过分别专注于宏观和微观特征的编码器和解码器,我们获得了可以学习具有中观特征的表示的模型。
与第一阶段相反,我们在第二阶段对预训练模型(编码器和解码器)进行微调,并使用伪造图像进行监督。在此,将多尺度边缘梯度增强模块 (EGEM) 融入解码器中,以从粗到细地突出篡改区域的痕迹。大量的实验表明,我们的方法在泛化性能和鲁棒性方面优于多个公共数据集上的最先进的竞争对手。
Exp
(CVPR-2024) IML-VIT: Benchmarking Image Manipulation Localization by Vision Transformer
IML-ViT
SunnyHaze • Updated Sep 23, 2024
动机
- 探索图像操纵检测(IML)中利用人工制品的方法。
- 考虑使用 Transformer 模型(特别是 ViT)来捕获人工制品,因为它们的自我注意机制可以自然地比较图像的操纵和真实区域之间的差异。
- 由于数据集限制,目前缺乏基于 ViT 的纯 IML 方法作为基准,而 CNN 仍然主导着整个任务。
方法
IML-ViT 方法包括以下主要组成部分:
- 高分辨率 ViT:使用窗口注意力替换全局注意力块,以接收高分辨率输入,并使用 ImageNet-1k MAE 进行预训练。
- 特征金字塔:引入一个简单的特征金字塔网络,实现多尺度监督。
- 形态边缘损失:提出一种基于形态的边缘损失策略,确保边缘监督。
实验
(CVPR-2024) Towards Modern Image Manipulation Localization: A Large-Scale Dataset and Novel Methods
动机
- 数据匮乏问题:现有研究面临高质量数据严重匮乏的问题,限制了图像篡改检测技术的发展。
- 高成本与耗时:手动创建高质量数据的过程既耗时又昂贵,进一步加剧了数据不足的困境。
方法
数据集
最初,采用分类器来判断输入图像对是否属于SDG或SPG。该分类器可以通过自监督学习有效地利用未标记的图像进行训练。其次,差异感知语义分割模型利用图像对及其差异图,准确地进行受限操作的定位,以识别SPG。此外,语义对齐相关匹配模型通过更好的语义对齐提升了SDG的性能。QES可以自动评估注释的质量,并在没有真实数据的情况下排除不良注释。
Constrained Image Manipulation Localization 模型训练
与图像操控定位相比,受限图像操控定位(CIML)在给定真实图像的额外帮助下,能够更准确地定位伪造的图像区域。
文章提出了一种新颖的范式——类别感知自动标注(CAAA),该方法旨在自动对网络上大量手动篡改的图像进行像素级的精确标注。CAAA范式,有效地将图像对分为共享供体组(SDG)和共享探测组(SPG),并针对不同组采用不同的处理策略。
这篇文章认为,Constrained Image Manipulation Localization 的输入数据可以分为两种类型。SDG 图像的相似区域被视为前景,它们具有特定的相似形状和独特的特征。相比之下,SPG 图像的相似区域则属于背景,这些区域通常缺乏足够独特的特征以进行准确的关联匹配。因此,在基于关联的模型中,这些区域可能会引起混淆,尤其是在复杂场景中。
Model Architecture
Difference-Aware Semantic Segmentation
在理想情况下,真实图像与伪造图像之间的绝对差异应该准确地反映出伪造区域。然而,图像在传输过程中常常遭受降级,导致利用绝对差异进行精确注释变得困难。例如,由于传输降级,图像差异图中的几乎所有区域都是非零的,即使通过OTSU算法进行二值化处理,真实区域仍然会被高亮显示,尤其在边缘等高频区域更为明显。为了解决这一问题,我们提出了一种方法,通过利用图像的语义信息来去噪差异图。具体而言,我们建议将真实图像、伪造图像及其差异图的通道维度连接后输入到语义分割模型中,以提高伪造区域的准确识别。
Semantic Aligned Correlation Matching
该模块的作用是通过改善语义对齐来提升基于相关性的模型性能,尤其是在处理经过重缩放操作后的图像时。由于原始图像和伪造图像在特征级别上的语义不一致,导致传统方法在特征匹配时表现不佳。以下是该模块的主要流程:
- 特征提取:从主干模型中提取不同分辨率的特征图。
- 全局表示计算:对最高级别的特征图进行平均池化,计算全局表示。
- 特征融合:通过卷积层将全局表示与最高级别特征融合。
- 自顶向下融合:类似于特征金字塔网络(FPN),以自顶向下的方式融合特征图,使低级特征增强语义信息,为与高级特征匹配做好准备。
- 交叉级别特征相关性计算:计算输入图像对的特征之间的相关性,允许在不同特征级别之间进行匹配,而不是仅限于同一特征级别。
- 特征处理与预测:将计算得到的相关特征进行拼接和通道减少,最后输入卷积解码器进行最终预测。
通过这一流程,该模块能够自适应选择最佳匹配路径,从而改善语义对齐,提升模型的泛化能力和性能。
质量评估分数(QES)
质量评估分数(Quality Evaluation Score,QES)进一步筛选和过滤掉不可靠的注释,以确保高质量的自动注释结果。尽管SPG(特定生成器)的注释质量已经很高,但SDG(特定数据生成器)的注释仍存在一些不满意的情况,因此需要对其进行评估和过滤。
QES的核心思想是高质量的预测通常具有较高的置信度和清晰的边缘。通过检查 mask 的置信度和清晰度,可以评估其质量并排除不好的预测。
只能排除一些明显质量很差的预测 但是错误预测无法排除
Exp
(AAAI-2024) A New Benchmark and Model for Challenging Image Manipulation Detection
Dataset
数据集的动机
现有的图像取证数据集在检测小区域伪造方面存在局限性,例如图像质量差、图像多样性不足和伪造策略单一。本文提出的数据集旨在解决这些问题,提供一个全面且具有挑战性的验证数据集,用于评估小区域伪造检测模型在压缩和未压缩场景中的性能。
与其他数据集的不同
- 高图像质量:原始图像由专业相机在不同的季节环境中拍摄,确保了丰富的细节和复杂的光照条件。
- 图像多样性:数据集包含自然场景、城市景观、人像和物体特写,提供了广泛的图像内容。
- 伪造策略丰富:数据集包括图像编辑和压缩伪造,并提供了多种后处理方法,以创建更具挑战性的伪造。
- 独立子集:CIMD 分为两个独立子集:CIMD-Raw 用于评估图像编辑方法,CIMD-Compressed 用于评估压缩方法。
- 16 位图像:数据集提供 16 位图像对,支持高达 248 万亿种颜色,以适应未来的图像处理技术。
数据集详细信息
CIMD-Raw 子集
- 600 对未压缩的 TIFF 图像(2048 × 1365 分辨率)
- 包含复制移动、对象移除和拼接伪造
- 五种后处理方法:缩放、旋转、色阶/曲线增强、照明变化和颜色重新分配
- 提供真值掩码
CIMD-Compressed 子集
- 200 对双 JPEG 压缩图像(2048 × 1365 分辨率)
- 质量因子 (QF) 均匀分布在 50 至 100 之间
- 包含拼接伪造,伪造区域经过单次压缩,而背景经过双次压缩
- 提供二进制掩码和用于压缩的 QF 值
方法
该方法采用双分支 IMD 网络,包含 RGB 和频率流。
- 特征提取:使用 HRNet 作为特征提取器,在四个不同尺度上进行并行处理。
- 定位细微篡改区域:应用 Atrous Spatial Pyramid Pooling (ASPP) 和注意力机制来精确定位细微篡改区域。
- 频率流:将量化的 DCT 系数、Q 矩阵和来自多次重新压缩的新型残差 DCT 系数输入骨干网,以检测双重压缩伪影。无论 QF 是否相同,此设计都能发挥作用。
- 热图聚合:引入自适应加权热图聚合设计,使用软选择融合两个分支生成的热图。
频率流
基于 DCT 系数在压缩后发生变化,随着系数计数的增加,逐渐聚焦在篡改区域上。因此,与 DTD 相比,多了一步使用 QTB 进行多次压缩,引导关注不稳定的区域。
Exp
只有在自己数据集上的指标, 完全可以面向模型设计数据集🤫
(AAAI-2024) MGQFormer: Mask-Guided Query-Based Transformer for Image Manipulation Localization
动机:
现有的图像处理定位网络存在两个缺点:
- 缺乏对全局信息的获取能力。
- 仅利用交叉熵损失,忽略了操纵区域的空间位置和形状细节。
提出的方法:
为了解决这些缺点,本文提出了 Mask-Guided Query-based Transformer 框架 (MGQFormer):
- 基于查询的变压器:使用可学习查询令牌 (LQT) 来选择与自身高度相似的像素嵌入,从而利用变压器的注意力机制。
- 掩码引导:利用真实掩码作为指导查询令牌 (GQT),以引导 LQT 专注于伪造区域。
- 掩码引导损失:引入掩码引导损失,以减小 GQT 和 LQT 之间的特征距离,从而强制 LQT 专注于伪造区域的位置和形状。
其实就是一个分割版本的 DN-DETR
(AAAI-2024) Learning Discriminative Noise Guidance for Image Forgery Detection and Localization
动机:
- 当前的图像伪造检测方法未能充分利用噪声中的不一致性。
- 提出了一种新的噪音引导方案,以提高图像伪造检测和定位的性能。
方法:
第一阶段:噪声提取
通过降噪网络和 Bayar 卷积构建噪声提取器。优化噪声提取器以扩大真实区域和伪造区域之间的噪声分布差异,方法是基于统计约束(JS 散度)。
第二阶段:RGB 和噪声数据融合
跨注意力引导滤波器 (CAGF) 类似于引导滤波,通过引导滤波的保边能力和局部线性和边缘保留,CAGF 集成了 RGB 和噪声域中的互补信息。此外,CAGF 确保将结构信息从噪声域传递到 RGB 域。
Cross-attention-based guided filter
大体的结构是一样的, 但是起的作用估计不太一样…
没有代码, 消融实验不敢相信
Exp
(Arxiv-2024) Rethinking Image Forgery Detection via Contrastive Learning and Unsupervised Clustering
动机:
现有基于分类的图像伪造检测方法忽略了伪造和原始像素的相对定义,导致不同图像中的伪造(原始)区域被不必要地混合到同一类别中。这会混淆分类器,导致不稳定的训练和较差的检测性能。
方法
本文提出了一种称为 FOCAL(FOrensic ContrAstive cLustering)的新范式,用于图像伪造检测。FOCAL 采用了以下方法:
像素级对比学习:
- 充分利用伪造掩码中像素级的正负类别的区别,进行像素级的对比学习。
- 以逐图像的方式进行监督,避免不同图像之间特征的相互影响。
即时无监督聚类:
- 采用即时无监督聚类算法 HDBSCAN,将学习到的特征聚类为伪造/原始类别。
- 聚类模块没有可训练参数,不参与训练过程。
直接特征级融合:
- 通过直接融合特征,在无需重新训练的情况下进一步提高性能。
Exp
(Arxiv-2024) Manipulation Mask Generator: High-Quality Image Manipulation Mask Generation Method Based on Modified Total Variation Noise Reduction
本文的动机是解决图像篡改检测领域面临的挑战,即传统方法的局限性、深度学习在该领域中的潜力以及缺乏高质量数据集来训练和验证深度学习模型。因此,本文旨在通过创建和利用一个新的、大规模的真实世界图像篡改数据集,来促进图像篡改检测领域的深度学习研究。
本文提出了一个新的蒙版生成方法,以从篡改图像中提取操纵区域。我们从包含篡改图像的在线论坛(如百度 PS 贴吧)中收集图像。从不同的帖子中保存原始图像和篡改图像,可以快速积累大量数据集。通常,通过从原始图像中减去篡改图像来识别篡改图像和原始图像之间的差异。然而,用户通常对图像进行整体编辑,导致图像差值中出现大量噪声,甚至整个图像变为噪声。采用全变差(TV)去噪方法可以有效缓解此问题。该方法结合了字符识别技术和切换操作,显著保留了文本信息,同时减少了噪声。
(Arxiv2024) GIM: A Million-scale Benchmark for Generative Image Manipulation Detection and Localization
我们提出了 GIM 数据集,它具有以下优点:1)规模大,包含超过一百万对 AI 生成图像和真实图像;2)图像内容丰富,涵盖范围广泛的图像类别;3)生成方法多样,使用最先进的生成器和各种图像处理任务生成图像。
我们使用了三个跨生成器数据集 GIM-SD(Stable Diffusion 对 ImageNet 进行操作后的数据,以下类推)、GIM-GLIDE、GIM-DDNM 和一个跨分布数据集 GIM-VOC(Stable Diffusion 对 VOC 进行操作后的数据)。
数据准备:
- 收集大规模自然图像数据集: 以 ImageNet 和 VOC 为起点
- 提取局部操作掩码: 利用分类属性或用户查询,使用零样本分割网络 [33] 从图像中提取局部操作掩码。
- 生成提示: 对于复制粘贴篡改,将图像类别嵌入到替换提示中,并与 ChatGPT 交互,返回一个近似的类别。然后将近似类别嵌入到修复提示中。生成模型结合原始图像、操作掩码和修复提示,生成复制粘贴生成篡改结果。对于删除篡改,生成模型仅需要原始图像和操作掩码。
- 准备训练数据: 从 ImageNet 中为每个生成模型选择 100 个不同的标签,创建篡改图像作为 GIM 基准测试的训练数据。
- 准备测试数据: 使用完整的测试数据集作为 GIM 基准测试的测试数据。
模型评估:
- 评估分类性能: 使用准确率 (Cls. acc) 评估分类结果。
- 评估定位性能: 使用操作掩码上的像素级 AUC 和 F1 分数评估定位性能。
- 跨生成器泛化测试: 在 GIM-SD 训练集上训练模型,并在 GIM-GLIDE、GIM-DDNM 和 GIM-VOC 测试集上进行测试,以评估 IMDL 的泛化性能。
- 混合生成器综合测试: 模型在 GIM-SD、GIM-GLIDE 和 GIMDDNM 训练集上联合训练,并在对应的测试数据集上分别进行测试。
方法:考虑到生成式操纵的特殊性,我们将在 4.1 节提出 ShadowTracer,在 4.2 节提出频域-空间块 (FSB),并在 4.3 节提出多窗口异常建模模块 (MWAM)。
(Arxiv 2024) IMDL-BenCo: Comprehensive Benchmark and Codebase for Image Manipulation Detection & Localization
(Arxiv 2024) Generalized Tampered Scene Text Detection in the era of Generative AI
- 研究目标:为了解决检测未见过的篡改场景文本伪造类型的问题,文章提出了一项新任务——开放集篡改场景文本检测,旨在评估取证模型识别已见和未见伪造类型的能力。
- 数据集构建:作者整理了一个高质量的数据集OSTF,包含八种文本编辑模型篡改的文本,以全面评估模型的开放集泛化能力。
- 新颖的预训练范式:引入了一种通过微妙改变图像中选定文本纹理的预训练方法 Texture Jitter,以训练模型识别篡改区域,从而解决高质量训练数据稀缺的问题,并提升模型的细粒度感知能力。
- DAF框架:提出了DAF框架,强调通过区分真实文本和篡改文本的特征来改善开放集泛化,而不仅仅是关注篡改文本的特征。
动机
新数据集 目前,Tampered-IC13数据集(Wang et al. 2022)被广泛用作基准,测试篡改场景文本检测方法。然而,现有的Tampered-IC13数据集存在一个重要缺陷:它无法真实反映模型在现实世界场景中的性能。该数据集中的所有篡改文本均由最古老的文本编辑模型SRNet(Wu et al. 2019)伪造,缺乏对未知篡改方法和未知场景的泛化能力评估。
新方法 现有的篡改场景文本检测方法在开放集泛化能力方面表现不佳。经过已知伪造品类型训练的取证模型,通常在面对未见过的伪造品类型时,性能会显著下降。
数据集
我们手动构建了一个全面且高质量的开放集场景文本篡改检测基准,命名为开放集场景文本取证(OSTF)。
- 篡改方法:
- 考虑三种生成篡改方法:conventional, font rendering, diffusion。
- 选用八种文本编辑方法。
- 数据来源:
- 使用选定的八种文本编辑方法伪造来自 ICDAR2013 的文本图像。
- 为了进行跨源数据集评估,使用 UDiffText 编辑来自 TextOCR 验证集的文本图像。
- (跨源+跨方法)使用 TextDiffuser 编辑来自 ICDAR2017 和 ReCTS 验证集的文本图像。
Texture Jitter
我们提出了一种简单而有效的方法,称为文本抖动(Textual Jitter),即轻微改变随机选择文本的纹理,同时保持其宏观外观不变(处理后的文本与原始文本几乎相同)。
这不就是 SBI
Difference Aware Forensics
未见伪造品上的性能下降主要是由于训练目标,这是一个常见的二分类任务。正如图4左上角所示,在训练过程中,模型仅学习了已见真实类(蓝色圆圈)和篡改类(黄色圆圈)的特定特征。当文本被未见的编辑方法篡改时,编辑风格是模型之前没有遇到过的,因此篡改文本(红色圆圈)的特征与已见特征不同。这使得分类器难以处理未见伪造品的新特征,从而导致性能下降。
我们建议在文本篡改检测建模中考虑输入特征与真实特征之间的差异,而不仅仅依赖单独的输入特征。已见和未见的伪造特征均可与真实特征区分开,这样可以减轻未见伪造带来的困惑。
EXP
(TMM 2024) Image-based Freeform Handwriting Authentication with Energy-oriented Self-Supervised Learning
文档相关
(ICCV-2023) Foreground and Text-lines Aware Document Image Rectification
动机:
提高扭曲文档图像的可读性对于从变形图像中有效提取信息至关重要。本文旨在解决扭曲文档图像校正问题,以消除文档图像中的几何变形并实现文档智能。现有的方法很少关注扭曲文档的可读性。
方法
本文提出了一种用于扭曲文档图像校正的方法,该方法使用前景和文本行信息来指导模型关注图像的全局和局部特征,以减少背景干扰并提高文档图像的可读性。该方法引入交叉注意力机制,以探索纸张变形趋势和原始扭曲图像之间更有效的交互,从而实现图像校正。
退化相关
(WACV-2023) Semantic Segmentation of Degraded Images Using Layer-Wise Feature Adjustor
动机:
在自动驾驶和监视系统等实际应用中,对退化图像进行语义分割至关重要。退化程度(表示退化的强度)在实践中通常是未知的。因此,语义分割算法需要考虑各种退化程度。
方法:
本文提出了一种卷积神经网络,可以对具有不同程度退化(例如 JPEG 失真、高斯模糊、椒盐噪声)的图像进行语义分割。该网络通过从仅使用干净图像训练的源网络进行知识蒸馏来实现,从而学习保持与源网络一致的多层特征,同时适应不同程度的退化。
训练流程:
- 训练源网络:使用仅干净图像。
- 固定源网络参数。
- 使用“混合训练”训练目标网络:
- 使用不同退化程度的退化图像,包括干净图像。
- 随机从均匀分布中采样退化程度。
- 将干净图像和退化图像分别输入源网络和目标网络。
- 最小化损失函数。
(TIP-2020) Degraded Image Semantic Segmentation With Dense-Gram Networks
主要动机:
- 退化图像分割性能不足: 现有的语义分割模型在处理退化图像时性能下降,与干净图像分割结果存在明显差距。
- 特征分布差距: 使用干净图像训练的模型与使用退化图像训练的模型之间存在特征分布差距,这是导致性能下降的主要原因。
- 现有方法的局限性: 基于图像恢复的预处理:无法完全恢复图像,且会引入噪声。使用干净和退化图像进行训练:效率低,且无法有效捕捉退化效应。微调预训练网络:会遗忘干净图像的特征,导致特征分布差异增大。
DGN 方法:
- 使用两个相同的网络:源网络和目标网络。
- 源网络参数固定,目标网络进行训练。
- 使用格拉姆矩阵量化特征分布,利用Gram矩阵捕捉图像纹理的能力,可以将源网络中的Gram矩阵视为干净图像的图像纹理,将目标网络中的Gram矩阵视为退化图像的图像纹理。这样,匹配源网络和目标网络之间的Gram矩阵可以 1) 减少特征分布的差距,以及 2) 最小化由退化效应引起的偏差。
- 密集交织的方式匹配格拉姆矩阵,增强网络之间的可迁移性。
(CVPR-2024)DocRes: A Generalist Model Toward Unifying Document Image Restoration Tasks
简单来说,提出了一个能够完成多任务的模型,并为不同任务添加了不同的先验条件,即 DTSPrompt。
原型相关
(WACV-2023) ProtoSeg: Interpretable Semantic Segmentation with Prototypical Parts
本文提出了一种名为 ProtoSeg 的新型语义分割方法,该方法旨在解决现有深度学习模型缺乏可解释性的问题。ProtoSeg 的核心思想是利用原型部件(prototypical parts)来生成和解释分割结果。
方法概述:
- 原型学习: ProtoSeg 为每个类别学习多个原型,这些原型代表该类别中的不同语义概念。
- 多样性损失函数: 引入了一种基于杰弗里散度的多样性损失函数,以确保每个类别的原型具有多样性,避免模型过度关注某些特定特征。
本文介绍的 ProtoSeg 模型用于图像分割任务,其架构主要由三个部分组成:
- 骨干网络 (Backbone Network) : 提取图像特征,本文采用 DeepLab 架构,包含在大型视觉识别任务上预训练的 ResNet-101 和 Atrous Spatial Pyramid Pooling (ASPP) 层。
- 原型层 (Prototype Layer) : 将特征图中的每个点与 M 个可学习的原型进行比较,计算相似度得分。每个原型都属于 C 个类别中的一个。
- 全连接层 (Fully Connected Layer) : 将每个点的 M 个相似度得分转换为 C 个类别的概率分布,最终生成分割结果。
模型工作流程:
- 输入图像 x 经过骨干网络 f 提取特征,得到特征图 f(x)。
- 特征图 f(x) 中的每个点 z 都与原型层 g 中的 M 个原型进行比较,计算相似度得分。相似度计算公式为:.
- 每个点的 M 个相似度得分经过全连接层 h,得到 C 个类别的概率分布。
- 将所有点的概率分布组合成分割图,并进行插值调整到原始图像大小。
模型训练过程:
ProtoSeg 采用多步骤训练流程,包括:
- 预热阶段: 冻结 ResNet-101 和全连接层 h 的权重,仅训练 ASPP 和原型层。
- 联合优化: 训练所有参数,除了全连接层 h 的权重。
- 原型投影: 将原型替换为训练集中与其最近的特征点,并移除重复的原型。
- 微调: 微调全连接层 h 的权重。
- 原型剪枝: 移除非类别相关的原型。
- 再次微调: 再次微调全连接层 h 的权重。
Diverse prototypes of same class
目的是让相同的类型有不同的prototype映射
我们将同一类别 在图像特征图 上的原型序列 之间的原型多样性损失定义为 。该损失衡量了序列 内原型激活的分布与从 分配到其类别的特征图点之间的差异。
相当于最大化散度
杰弗里相似度公式为:
其中,两个概率分布 和 之间的杰弗里散度为:
我们将图像特征图 和原型 之间的原型-类别-图像距离向量定义为: