(ECCV2022)UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision Transformer for Face Forgery Detection 论文阅读
date
Jun 1, 2023
Last edited time
Jun 1, 2023 03:53 PM
status
Published
slug
UIA-ViT论文阅读
tags
DL
CV
summary
type
Post
Field
Plat
AbstractMethodUnsupervised Patch Consistency LearningProgressive Consistency Weighted AssembleExperimentsAblation
Abstract
Intra-frame inconsistency(帧内不一致性)指的是视频中单个帧内伪造区域和原始背景之间的不一致性。在人脸伪造检测的背景下,这种不一致性可能是由于常见的伪造策略(如图像篡改和混合)引起的。通过检测并关注这些不一致性,可以提高人脸伪造检测的泛化性能。然而,获取用于训练数据的像素级别伪造位置注释可能具有挑战性。
本文提出了一种名为UIA-ViT的方法,它是一种基于Vision Transformer的无监督不一致性感知方法,用于人脸伪造检测。该方法利用帧内不一致性来检测人脸伪造,而不需要额外的像素级别注释。基于vision Transformer,我们提出了两个关键组件:Unsupervised Patch Consistency Learning(UPCL)和 Progressive Consistency Weighted Assemble(PCWA)。
UPCL 通过无监督的伪造位置检测方法来学习与一致性相关的表示。在训练过程中,通过比较真实/伪造特征的MVG(多元高斯分布)和来自Vision Transformer(ViT)中间层的补丁嵌入之间的马氏距离,大致估计伪造位置图。然后逐步优化伪造位置图以建模一致性约束。
PCWA是一种特征增强模块,可以充分利用一致性表示。它通过逐步结合全局分类特征和局部补丁特征来利用一致性表示,并使用分类嵌入和补丁嵌入之间的注意力图对后者进行加权平均。这样可以提高对人脸伪造区域的检测能力。
Method
Unsupervised Patch Consistency Learning
Unsupervised Approximate Forgery Location
具体来说,我们尝试在 General Forgery Region (GFR) 内拟合原始图像块的 MVG 和伪造图像块的 MVG。我们将 GFR 定义为不同伪造数据集之间的一般操作区域,其中补丁特征可以近似代表实际操作面部区域的分布。具体来说,我们将 GFR 指定为裁剪面部的中心正方形区域。
multivariate Gaussian estimation (MVG) 多元高斯估计
然后使用 Mahalanobis distance 距离判断伪造图像区域。
Patch Consistency Loss
Patch Consistency Loss 通过比较不同层次的注意力图(Attention Map)之间的相似性来度量特征表示的一致性。在标准 Transformer 编码器中,每个 Transformer 块都包含一个多头注意力层,该层首先计算不同输入嵌入之间的查询和键之间的兼容性,并生成 Attention Map。我们基于 ViT 的方法直接使用中间层的 Attention Map 进行自洽性学习。通过最小化不同层次之间 Attention Map 的差异,Patch Consistency Loss 可以促进特征表示在不同层次上保持一致,并提高模型在人脸伪造检测任务上的泛化能力。
Progressive Consistency Weighted Assemble
Progressive Consistency Weighted Assemble (PCWA) 旨在将全局特征和局部不一致感知补丁特征逐步组合起来,以进行最终的二元分类。由于最终分类嵌入捕获更多的全局语义信息而非局部纹理信息,因此仅仅将最终分类嵌入馈送到 MLP 头部是不足够利用帧内不一致性线索的。为了解决这个问题,本文提出了 PCWA 模块,它通过逐步组合全局特征和局部不一致感知补丁特征来增强最终分类嵌入。
具体来说,PCWA 首先使用 Unsupervised Patch Consistency Learning (UPCL) 学习每个补丁之间的自洽性关系,并生成优化后的伪标注。然后,它将这些优化后的补丁特征与全局特征进行加权组合,并将结果馈送到 MLP 头部进行最终分类。通过这种方式,PCWA 可以充分利用全局和局部信息来提高模型在人脸伪造检测任务上的性能。