Effort: Efficient Orthogonal Modeling for Generalizable AI-Generated Image Detection

date
Dec 9, 2024
Last edited time
Dec 9, 2024 07:42 AM
status
Published
slug
Effort: Efficient Orthogonal Modeling for Generalizable AI-Generated Image Detection
tags
CV
DeepFake
summary
type
Post
origin
Field
Plat
notion image
在本文中,我们识别出一个关键但之前被忽视的AIGI检测中的不对称现象:在训练过程中,模型倾向于迅速过拟合于训练集中的特定假图案,而其他信息却未能得到充分捕捉,从而在面对新的假方法时导致较差的泛化能力。一个关键的见解是将大型视觉基础模型(VFM)中嵌入的丰富语义知识纳入,以扩展之前仅基于伪造模式的判别空间,使得判别既依赖于伪造线索,也依赖于语义线索,从而减少对特定伪造模式的过拟合。一个直接的解决方案是完全微调VFM,但这可能会扭曲已学得的语义知识,使模型重新陷入过拟合。为此,我们设计了一种新方法,称为Effort:用于可泛化AIGI检测的高效正交建模。具体而言,我们采用奇异值分解(SVD)来构造正交语义和伪造子空间。
notion image
在训练过程中,我们仅优化 ,同时保持 不变。这一实现确保模型能够通过奇异值分解(SVD)近似处理真实图像,并适应通过权重矩阵的平凡残差成分来检测深伪。为了鼓励 捕捉真实与虚假之间有用且有意义的差异,确保优化 不会改变整体权重矩阵 的特性是至关重要的,即尽可能最小化对预训练权重的真实信息的影响。因此,我们提出了两个约束以实现这一目标:
  • 正交约束
    • 我们保持每个奇异向量之间的正交性,以保持用于学习真实/虚假的正交子空间。
  • 奇异值约束
    • 奇异值可以被解释为一种缩放,影响相应奇异向量的大小。奇异值与被分解的权重矩阵的弗罗贝尼乌斯范数之间存在关系。
最终损失为:
💡
与 LoRA 的区别
notion image
参数高效微调(PEFT)已成为将预训练视觉基础模型(VFM)适应于下游任务的流行技术。低秩适应(LoRA)是一种广泛使用的PEFT方法。之前的研究在VFM中应用LoRA,在深伪检测和合成图像检测基准上取得了良好的经验泛化结果。
与完全参数微调(FFT)相比,LoRA还具有保留部分原有的良好学习的预训练语义知识的优势,同时学习伪造模式。此外,[38]和[71]在深伪检测领域引入了MoE-LoRA技术和双适配器。然而,我们基于SVD的方法与这些基于适配器的方法不同,并显示出几个优势。具体而言,我们的方法明确地通过SVD构建两個正交子空间,用于语义和伪造,确保预先存在的语义知识在学习伪造的过程中不会被扭曲并得到良好保留。相比之下,提到的基于适配器的方法并没有明确确保语义与伪造之间的正交性,仍有潜在扭曲预先存在的语义知识并导致意外的泛化结果。为了证明我们的方法在深伪检测和合成图像检测基准上能比其他基于适配器的方法获得更好的泛化,
 

© Lazurite 2021 - 2025