(CVPR2023-DGM)Detecting and Grounding Multi-Modal Media Manipulation 论文阅读

date
Apr 18, 2023
Last edited time
Apr 18, 2023 07:52 AM
status
Published
slug
CVPR2023-DGM论文阅读
tags
DL
CV
summary
新的 Baseline 就是新的方向可以做 还是多模态的
type
Post
Field
Plat
notion image

Abstract

虚假信息已成为一个紧迫的问题,因为在网络上广泛存在着视觉和文本形式的假媒体。虽然已经提出了各种检测深度伪造和虚假新闻的方法,但它们通常是针对基于二进制分类的单模态伪造设计的。这些方法中没有任何一种能够分析和推理跨不同模态的微小伪造痕迹。
notion image
在本文中,我们提出了一个名为“检测和定位多模态媒体操纵(DGM4)”的多模态假媒体新研究问题。DGM4不仅旨在检测多模态媒体的真实性,还要确定受到操纵的内容,例如图像边界框和文本标记,这需要更深入地推理多模态媒体操纵。
  1. 为了支持大规模研究,我们构建了第一个DGM4数据集,其中图像-文本对通过各种方法进行操作,并具有丰富的各种操作的注释。
  1. 我们提出了一种新颖的Hierarchical Multi-modal Manipulation Reasoning Transformer(HAMMER)来充分捕捉不同模态之间的细粒度交互。 HAMMER执行面向操纵的对比学习,通过两个单模态编码器进行浅层操纵推理,并通过多模态聚合器进行模态感知的交叉注意力,进行深层操纵推理,从浅层到深层基于相互作用的多模态信息集成了专门的操作检测和定位头。
  1. 最后,我们建立了一个广泛的基准,并为这个新的研究问题设置了严格的评估指标。全面的实验证明了我们模型的优越性,并揭示了几个有价值的观察结果,可以促进未来多模态媒体操作的研究。

Introduce

与单模态相比,多模态媒体(以图像-文本对的形式)传播更广泛、影响更大的信息。因此,多模态伪造媒体往往更加有害。为了应对这种新威胁,并提供更可解释和可解释的解决方案,本文提出了一个新的研究问题,即检测和定位多模态媒体操纵(DGM4)。
DGM4带来了两个挑战:1)当前的深度伪造检测和文本虚假新闻检测方法被设计用于检测单模态的伪造,而DGM4要求同时检测图像和文本模态中的伪造存在;2)除了类似于当前单模态伪造检测的二进制分类之外,DGM4还进一步考虑到对操作过的图像边界框(bboxes)和文本标记进行定位。这意味着现有的单模态方法不能用于这个新的研究问题。需要更全面和更深入地推理两种模态之间的操作特征。请注意,一些多模态误导工作已经开发出来。但它们只需要确定多模态媒体的二元类别,更不需要操纵定位。
为了方便研究DGM4,本文贡献了第一个大规模的DGM4数据集。在这个数据集中,我们研究了一个代表性的多模态媒体形式——以人为中心的新闻。这种新闻通常涉及到政治家和名人的误导信息,导致了严重的负面影响。我们开发了两种不同的图像操作方法(即人脸交换/属性操作)和两种文本操作方法(即文本交换/属性操作)来形成多模态媒体操作场景。针对检测和定位,提供了丰富的注释,包括二进制标签、细粒度操作类型、操作后的图像框和操作后的文本标记
为了充分捕捉图像和文本之间的交互,HAMMER
  1. 通过两个单模型编码器之间的感知对比学习,在浅层操作推理中对齐图像和文本嵌入
  1. 通过多模态聚合器中的模态感知交叉注意力聚合多模态嵌入,在深度操纵推理中聚合多模态嵌入。
基于不同级别的交互多模态嵌入,专门的操作检测和定位头部分层集成,以检测二进制类、细粒度操作类型,并地面操作图像边框、操作文本标记。这种分层机制有助于更细粒度、更全面的操作检测和定位。

Dataset

DGM4数据集采用了多种图像和文本操作技术进行构建。所有样本都标有丰富、细致的标签,使得媒体操纵的检测和定位均可实现。在所有多模态媒体形式中,我们特别关注以人为中心的新闻,考虑到它对公众的巨大影响。
notion image
DGM4数据集包含了总共23万条新闻样本,其中包括77,426对原始图像-文本对和152,574对操纵对。操纵对中包含66,722个换脸操纵、56,411个脸部属性操纵、43,546个文本交换操纵和18,588个文本属性操纵。约1/3的操纵图像和约1/2的操纵文本被组合在一起形成32,693个混合操纵对。由于图像和文本属性都可以朝着两个相反的情感方向进行编辑,我们特意保持平衡比例来创建一个情感平衡的数据集,如图2(e)所示。此外,从图2(b)-(c)可以观察到大多数图像的操纵区域和操纵文本令牌的数量相对较小。这表明与现有的深度伪造和多模态误信息数据集相比,DGM4数据集提供了一个更具挑战性的欺骗检测场景。

HAMMER

notion image
我们提出了一种层次多模态操纵推理变压器(HAMMER),它由两个单模型编码器(即图像编码器 、文本编码器 )、多模态聚合器 和专用的操纵检测和定位头(即二元分类器 、多标签分类器 、BBox检测器 和Token检测器 )组成。
如上所述,建模两种模态之间的语义相关性和捕获语义不一致性可以促进多模态操作的检测和定位。然而,存在两个挑战:
  1. 大部分多模态操纵是微小和微妙的,位于一些小尺寸的面孔和几个词汇标记中;
  1. 在网络上的多模态媒体中存在大量视觉和文本噪声。因此,一些由操纵引起的语义不一致可能被忽略或被噪音覆盖。这需要更精细的多模态关联推理。
为此,我们设计了HAMMER。在浅层的操纵推理中,我们通过 Manipulation-Aware Contrastive Loss 对 图像和文本嵌入进行语义对齐,并在 Image Manipulation Grounding Loss 下进行操纵bbox定位。在深层的操纵推理中,基于由 Multi-Modal Aggregator 生成的更深入的互动多模态信息,我们使用Binary Classification Loss 检测二元类别,使用 Multi-Label Classification Loss 检测精细化操作类型,并通过Text Manipulation Grounding Loss 对操作文本标记进行定位。通过组合上述所有损失,逐层执行操纵推理,有助于以下联合优化框架:

Shallow Manipulation Reasoning

给定一个图像-文本对 ,我们通过自注意力层和前馈网络将图像 分成一系列图像嵌入向量。具体来说,我们首先对图像进行切片(patchify),然后在图像编码器中编码,得到 ,其中 token 的嵌入向量, 是相应的 个图像切片的嵌入向量。文本编码器可以提取 的文本嵌入序列,记为 ,其中 token 的嵌入向量, 个文本单词的对应嵌入向量。

Manipulation-Aware Contrastive Learning

为了帮助两个单模态编码器更好地利用图像和文本之间的语义相关性,通过跨模态对比学习来对齐图像和文本嵌入向量。然而,一些微妙的多模态操作会导致两种模态之间出现轻微的语义不一致,这些不一致很难通过普通的对比学习揭示出来。为了强调由操纵引起的语义不一致,HAMMER提出了一种针对图像和文本嵌入的操作感知对比学习。与普通的跨模态对比学习不同的是,操作感知的对比学习在将原始图像-文本对的嵌入向量拉近的同时,也会将那些不匹配的嵌入向量推开,以便进一步强调它们产生的语义不一致性。我们使用InfoNCE损失,构建了图像到文本的对比损失函数:
在这里, 是温度超参数, 是一组负文本样本,它们与 不匹配,并且属于被操纵的图像文本对。由于 token 作为整个图像和文本的语义表示,我们使用两个 projection head 将两种模态的 tokens 映射到一个低维度 (256) 的嵌入空间中进行相似度计算:。我们分别为两种模态学习具有动量的单模态编码器 (指数移动平均版本) 和动量 projection head。我们使用两个队列来存储最近的 个图像-文本对嵌入向量。这里的 是来自文本动量编码器的 token,而 则表示来自文本动量 projection head 的投影文本嵌入向量。类似地,文本到图像的对比损失如下:
我们合并所有损失以形成 Manipulation-Aware Contrastive Loss,如下所示:

Manipulated Image Bounding Box Grounding

如上所述,FS 或 FA 可以交换图像中的面部身份或编辑属性。这会改变它们与人名或情感等相应文本之间的相关性。基于此,我们认为可以通过查找与文本嵌入不一致的局部路径来定位被篡改的图像区域。为此,我们在图像和文本嵌入之间执行交叉注意力,以获得包含图像-文本关联的路径嵌入。

Deep Manipulation Reasoning

notion image

Manipulated Text Token Grounding

为了建立更深层次的多模态交互,我们提出了一种模态感知的交叉注意力方法,进一步引导文本嵌入通过多个跨通道的注意力层与图像嵌入 进行交互,在多模态聚合器 中生成聚合的多模态嵌入。特别地, 代表每个 中对应的深度聚合嵌入。在这个阶段, 中的每个标记都通过 中的多个自我注意力层以及 中的交叉注意力层。通过这种方式, 中的每个标记嵌入不仅完全探索了文本的上下文信息,而且还完全与图像特征进行了交互,从而适合于操纵文本令牌的基础定位。
此外,Manipulated Text Token Grounding 等同于将每个 token 标记为真实或伪造。这类似于NLP中的序列标记任务。值得注意的是,与主要研究文本模态的现有序列标记任务不同,这里的 Manipulated Text Token Grounding 可以被视为一种新颖的多模态序列标记,因为每个 token 与两种模态信息交互。在这种情况下,我们使用一个令牌检测器 来预测 中每个 token 的标签,并计算以下交叉熵损失:
 

Fine-Grained Manipulation Type Detection and Binary Classification.

与目前主要进行真/假二元分类的伪造检测研究不同,我们希望我们的模型能够为操纵检测提供更多的解释。在DGM4数据集中介绍了两种图像和两种文本操纵方法。鉴于此,我们的目标是进一步检测四种精细的操纵类型。
由于 标记 在模态感知的交叉注意力之后聚合了多模态信息,所以它可以被用作操纵特征的全面摘要。因此,我们在其上连接一个多标签分类器 来计算多标签分类损失:
我们还基于 进行正常的二元分类,如下所示:

Exp

Example

notion image

Performance Compare

notion image
notion image

Ablation Study

notion image
notion image
 

© Lazurite 2021 - 2024