Feature Shrinkage Pyramid for Camouflaged Object Detection with Transformers 论文阅读

date

Mar 29, 2023

Last edited time

Mar 29, 2023 07:49 AM

status

Published

slug

FSPNet论文阅读

Abstract

视觉transformer最近在伪装物体检测中表现出强大的全局上下文建模能力。然而，它们存在两个主要限制：较不有效的局部建模和解码器中不足的特征聚合，这对于探索来自无法区分的背景的微妙线索的伪装物体检测并不利。

为了解决这些问题，本文提出了一种新颖的基于transformer的特征缩减金字塔网络（FSPNet），旨在通过渐进式缩小来层次化地解码增强邻近transformer特征，以进行伪装物体检测。

为了补充 transformer 编码器中的本地特征建模，我们提出了 Non-local Token Enhancement Module（NL-TEM）。该模块采用 non-local 机制与相邻相似的 token 进行交互，并探索 token 内基于图形的高级关系，以增强局部表示。我们还设计了一个具有相邻交互模块（AIMs）的特征收缩解码器（FSD）。通过逐层收缩金字塔结构，这些模块逐渐聚合相邻的 transformer 特征对。这使我们能够尽可能地积累微妙但有效的细节和语义，以用于对象信息解码。

Proposed Method

Overview

图3展示了我们提出的FSPNet模型的总体架构。主要组件包括Vision transformer encoder、Non-local Token Enhancement Module（NL-TEM）和特征缩减解码器（FSD）。具体而言，输入图像首先被序列化为token，作为Vision transformer的输入，使用自我注意机制建模全局上下文。

之后，为了加强token内部的局部特征表示，设计了Non-local Token Enhancement Module（NL-TEM）来在token之间和内部执行特征交互和探索。增强后的token从编码器空间转换到解码器空间进行解码。在解码器中，为了尽可能地合并和保留微妙但关键的线索，我们设计了特征缩减解码器（FSD），通过逐层缩减逐渐聚合相邻特征以解码物体信息。

Non-local Token Enhancement Module

Transformer具有强大的全局上下文建模能力，但缺乏在局部区域内交换信息的机制。为了解决这个问题，我们设计了Non-local Token Enhancement Module（NL-TEM），以增强相邻token的本地特征表示。首先，采用Non-local Operation与相邻的相似token进行交互，以聚合相邻的伪装线索。然后，采用图卷积网络（GCN）操作来探索token内不同像素之间的高阶语义关系，从而识别微妙的区分特征。

具体来说，首先需要对相邻的两个token 和进行标准化。通过两个线性投影函数和，和。

首先将和进行连接，获得整合token 。使用线性投影函数进行降维至。接着使用 softmax 函数生成权重图，并使用该图对进行逐元素乘法加权。最后，使用自适应平均池化操作降低计算成本。以上操作可以表示为：

使用矩阵乘积应用于和探索它们之间的相关性，生成注意力图，表示为。将和馈送到图融合模块（GFM）中，表示为。这个过程将一组像素区域投影到一个顶点上，采用单层GCN来学习区域之间的高级语义关系，并在图上跨顶点信息传播来推理非局部区域以捕获 token 内的全局表示。将顶点特征馈送到谱图卷积的一阶近似中，可以获得输出

其中是编码图连接性的邻接矩阵，是GCN的权重。最后，使用跳过连接将与基于图的增强表示相结合。使用反序列化操作将 token 序列转换为与原始特征具有相同维度的2D图像特征进行解码，表示为：

其中是来自标记的输出本地增强特征。同样，也可以获得。

Feature Shrinkage Decoder

常见的解码器如图2(a)-(d)所示，直接聚合具有显著不一致性的特征。例如，它们可能混合低级特征和丰富细节以及高级特征和语义，这可能会引入噪音并且丢失微妙但有价值的线索。

为了解决这个问题，我们设计了一个特征缩减解码器（FSD）。该解码器使用分层缩减金字塔体系结构逐步成对聚合相邻特征，以累积更多不可感知的有效线索。此外，我们提出了一个相邻交互模块（AIM），该模块与聚合的特征输出交互并合并当前相邻的特征对。

具体而言，设和为当前层的相邻特征对，设为先前AIM的输出聚合特征。那么，AIM可以被公式化为：

其中，是传递给下一个AIM的特征，是当前AIM的输出特征，用于下一层。由卷积、批量归一化和ReLU操作组成。和分别是连接和上采样操作。

请注意，FSD包含总共4层收缩金字塔和12个AIMs。整个FSD过程总结如算法1所示。

最后一个AIM的输出特征由经过sigmoid和上采样操作的地面真实值（G）监督，用于伪装物体预测。

Experiments

Result

Ablation Study

在中的表示用于解码的特征层数。我们可以看到，聚合不同的特征层有助于合并更多的线索，从而提高检测性能。在我们的实验中，聚合所有的 transformer 特征层（即）提供了最佳性能。

1️⃣ 使用 U 形解码结构替换 FSD 2️⃣ 使用更简单的操作组合（即串联和 1×1 卷积）替换 AIM 3️⃣ 将 AIM 扩展到聚合三个相邻的特征层 4️⃣ 调整我们的解码器以重叠成对特征聚合，并删除同一层内的侧面监督和特征交互。

我们的解码器和4️⃣大大优于U形解码结构1️⃣，这是因为这种解码器通常直接聚合具有大特征差异的特征(在同一融合层中)，并且倾向于丢弃一些微妙但有价值的线索，导致不准确的预测，特别是在从微弱线索中识别伪装对象的任务中。