(CVPR2023-FEDER)Camouflaged Object Detection with Feature Decomposition and Edge Reconstruction 论文阅读

date
Apr 25, 2023
Last edited time
Apr 30, 2023 03:42 PM
status
Published
slug
CVPR2023-FEDER论文阅读
tags
DL
CV
summary
type
Post
Field
Plat

Abstract

notion image
  • Challenge of Camouflaged Object Detection(COD)
    • 伪装物体检测面临的一些挑战包括内在相似性(IS)挑战和边缘破坏(ED)挑战。内在相似性挑战发生在当伪装物体与它们的背景共享相似的颜色和图案时,这使得即使是粗略地定位这些伪装物体也很困难。而边缘破坏挑战则源于极其模糊的物体边界。即使实现了粗略的定位,也几乎无法获得精确的分割。
  • Shortage of current COD method
    • 之前的COD方法存在以下不足:由于伪装策略是由猎物设计来混淆捕食者的视觉系统,因此人类感知为基础的COD方法可能难以识别微妙的区别特征,无法有效地解决内在相似性和边缘破坏挑战。
  • Motivation
    • 这篇文章提出了一种新的方法来解决伪装物体检测中的内在相似性和边缘破坏挑战。
      具体而言,该方法使用可学习的小波将伪装场景的特征分解成不同的频带,然后专注于最具信息量的频带来挖掘区分前景和背景的微妙线索。这是通过 Frequency Attention Module 和 Guidance-based Feature Aggregation Module 实现的。通过解开各种复杂连接,每个部分可以单独处理以充分挖掘微妙的区别特征。
      为了解决模糊边界问题,我们建议在 COD 任务的同时学习辅助边缘重建任务。我们设计了一个受常微分方程启发的边缘重建模块,可以生成精确的边缘。

Method

notion image
给定伪装图像,我们首先使用伪装特征编码器 (CFE) 提取一系列特征。然后,我们对特征执行类小波分解 (DWD),将它们分解为不同的频带。频率注意模块(FA)被用来选择最具信息量的频带,以便挖掘区分前景和背景的微妙线索。基于引导的特征聚合模块(GFA)被用来聚合所选频带中的特征,以进一步提高伪装物体检测性能。基于聚合特征,segmentation-oriented edge-assisted decoder (SED)输出分割图和边缘预测图。

Camouflaged Feature Encoder (CFE)

基本编码器 E 采用 ResNet50 /Res2Net50 作为主干。基本编码器 生成一组特征图 ,分辨率为 。此外, 被进一步输入到 e-ASPP 中以扩大感受野并融合多上下文信息,得到 ,其中 是粗分割结果,与 具有相同的空间分辨率。

Deep Wavelet-like Decomposition

Learnable Decomposition Wavelet(LDW)

LDW的作用是将伪装场景的特征分解成不同的频带,以便挖掘区分前景和背景的微妙线索。通过LDW,可以选择最具信息量的频带,并使用频率注意模块和基于引导的特征聚合模块来进一步提高伪装物体检测性能
我们将 分解为
其中 表示 的高频和低频分量。 代表可学习的 HF 和 LF 滤波器,其系数在 AWD 之后更新并由 Haar 小波初始化。与手动设计的小波相比,学习到的类小波变换器有望更好地迎合 COD 数据,从而进一步促进不显眼的判别特征的提取。

Frequency Attention Modules

notion image
HFA(high-frequency attention) 和 LFA(low-frequency attention) 分别指高频注意模块和低频注意模块。它们的作用是选择最具信息量的频带以进一步提高伪装物体检测性能。
高频注意力模块
我们设计 HFA 模块来突出那些纹理丰富的区域,以进行细微的判别特征提取。我们首先应用残差块来保存纹理,它由 3×3 卷积层、批量归一化 (BN) 和 ReLU 组成。然后,我们使用联合注意模块 JA (•),其中包括 spatial attention 和 channel attention,以突出空间和通道域中值得注意的部分。因此,给定 HF 特征 ,HF 注意力图 公式如下:
低频注意力模块
低频分量更关注全局信息,例如颜色分布和光照,这不可避免地导致存在冗余分量和轻微的扰动。为了处理这些问题,我们设计了一个规范化策略来抑制不需要的伪影,并在实例级别和通道维度上为注意力计算提供更清晰的全局信息,从而可以从全局角度突出那些异常区域。
具体来说,该模块将分解后的 LF 特征 作为输入并输出
其中 , , and 分别表示实例归一化约束残差块、位置归一化和联合注意力。
💡
啥都没有说明

Guidance-based Feature Aggregation Module

GFA 指的是基于引导的特征聚合模块,其作用是将多尺度分解的特征聚合在一起,并使用注意力引导来进一步强调区分前景和背景的微妙线索。
💡
To extract the attention-guided semantic information, we first generate the down-sampled aggregated feature with the window-based linear model:
where , , and are the down-sampling operation, local window, and pixel point . are linear aggregation coefficients for the pixels in window , which can be acquired by optimizing the following objective function:
where is a constraint value for .
Considering pixel covered by multiple windows, we average those window-wise coefficients and get the specific aggregation coefficients for pixel . By matrixing into , Eq. (4) can be rewritten as follows:
where is the Hadamard product. We then up-sample as and acquire the high-resolution aggregated feature for enriching spatial details:
We redefine GFA module by replacing with :
where and . Guaranteed with frequency-specific attention, our aggregated features can emphasize more discriminative features than others by combining abundant spatial details and deep semantic information, thus better catering to the COD task.
Considering that bottom layers (at higher levels) focus more on HF details while top layers (at lower levels) care more about global information, we pass the aggregated HF/LF features into the bottom/top decoder layers along with the skip-connected encoded features . To balance performance and efficiency, the integrated features passed to the decoder are defined as:
where and denote the up-sampling operation and the concatenation operation. represents 1 × 1 convolution, which is used for channel-level integration.

Segmentation-oriented Edge-assisted Decoder

Segmentation-oriented Edge-assisted Decoder(SED)是一种用于图像分割的解码器。SED通过学习辅助边缘重建任务来帮助生成具有准确边界的精确分割图。
具体而言,SED由多个解码器层组成,每个解码器层包含一个可逆的重新校准分割(RRS)模块和一个基于ODE的边缘重建(OER)模块。RRS模块用于生成精确的分割图,而OER模块则用于学习辅助边缘重建任务。通过这种方式,SED可以自适应地学习如何生成具有准确边界的精确分割图,并在此过程中提高伪装物体检测性能。
notion image

Reversible Re-calibration Segmentation Module

Reversible Re-calibration Segmentation Module(RRS)是一种可逆的重新校准分割模块。RRS通过反转注意力来从低置信度区域挖掘线索,以重新校准被错误分类的区域。
具体而言,由于复杂的伪装,预测图不可避免地会有一些置信度较低的模糊区域。为了解决这个问题,RRS采用了一种反向策略来从这些低置信度区域挖掘线索。具体而言,RRS将粗分割图重复为一个64维张量,并使用Sigmoid函数将其归一化到[0,1]范围内。然后通过从1中减去每个元素来反转它。通过这种方式,RRS可以自适应地重新校准被错误分类的区域,并在此过程中提高伪装物体检测性能。
💡
简单的分心挖掘策略

ODE-inspired Edge Reconstruction Module

ODE-inspired Edge Reconstruction Module(OER)是一种基于ODE的边缘重建模块。OER通过使用二阶Runge-Kutta(RK2)求解器来提供更准确的数值解,以在边缘信息处理中提供更精细的性质,并促进完整的边缘重建,从而解决伪装物体检测中的挑战。
具体而言,与传统的残差网络结构相比,可以将其视为具有非常大截断误差的ODE的一阶Euler离散化近似。而OER模块则采用了一个更高阶的ODE求解器,即二阶Runge-Kutta(RK2),以在边缘信息处理中提供更准确的数值解。通过这种方式,OER可以自适应地学习如何生成具有准确边界的精确分割图,并在此过程中提高伪装物体检测性能。

Loss Functions

我们的 FEDER 的总损失公式如下:

Experiments

💡
For both training and inference phases, all images are resized as 384 × 384.
notion image
notion image

Ablation Study

notion image

© Lazurite 2021 - 2024