Feature Shrinkage Pyramid for Camouflaged Object Detection with Transformers 论文阅读

date
Mar 29, 2023
Last edited time
Mar 29, 2023 07:49 AM
status
Published
slug
FSPNet论文阅读
tags
DL
CV
summary
type
Post
Field
Plat
notion image
💡
所有输入图像都被调整为384×384。Adam被用作优化器,并且学习率被初始化为1e-4,然后每50个epochs缩小10倍。在批量大小为2的情况下进行完整的200个epochs训练过程,在拥有8个NVIDIA Tesla V100 GPU的工作站上需要大约8个小时。
💡
这篇文章可以看出 Decoder 的结构对结果产生了较大影响(U-Net的效果不佳,详见 Ablation Study)。

Abstract

视觉transformer最近在伪装物体检测中表现出强大的全局上下文建模能力。然而,它们存在两个主要限制:较不有效的局部建模和解码器中不足的特征聚合,这对于探索来自无法区分的背景的微妙线索的伪装物体检测并不利。
为了解决这些问题,本文提出了一种新颖的基于transformer的特征缩减金字塔网络(FSPNet),旨在通过渐进式缩小来层次化地解码增强邻近transformer特征,以进行伪装物体检测。
为了补充 transformer 编码器中的本地特征建模,我们提出了 Non-local Token Enhancement Module(NL-TEM)。该模块采用 non-local 机制与相邻相似的 token 进行交互,并探索 token 内基于图形的高级关系,以增强局部表示。我们还设计了一个具有相邻交互模块(AIMs)的特征收缩解码器(FSD)。通过逐层收缩金字塔结构,这些模块逐渐聚合相邻的 transformer 特征对。这使我们能够尽可能地积累微妙但有效的细节和语义,以用于对象信息解码。

Proposed Method

Overview

图3展示了我们提出的FSPNet模型的总体架构。主要组件包括Vision transformer encoder、Non-local Token Enhancement Module(NL-TEM)和特征缩减解码器(FSD)。具体而言,输入图像首先被序列化为token,作为Vision transformer的输入,使用自我注意机制建模全局上下文。
之后,为了加强token内部的局部特征表示,设计了Non-local Token Enhancement Module(NL-TEM)来在token之间和内部执行特征交互和探索。增强后的token从编码器空间转换到解码器空间进行解码。在解码器中,为了尽可能地合并和保留微妙但关键的线索,我们设计了特征缩减解码器(FSD),通过逐层缩减逐渐聚合相邻特征以解码物体信息。
notion image

Non-local Token Enhancement Module

notion image
Transformer具有强大的全局上下文建模能力,但缺乏在局部区域内交换信息的机制。为了解决这个问题,我们设计了Non-local Token Enhancement Module(NL-TEM),以增强相邻token的本地特征表示。首先,采用Non-local Operation与相邻的相似token进行交互,以聚合相邻的伪装线索。然后,采用图卷积网络(GCN)操作来探索token内不同像素之间的高阶语义关系,从而识别微妙的区分特征。
 
具体来说,首先需要对相邻的两个token 进行标准化。通过两个线性投影函数
首先将 进行连接,获得整合token 。使用线性投影函数 进行降维至 。接着使用 softmax 函数生成权重图 ,并使用该图对 进行逐元素乘法加权。最后,使用自适应平均池化操作 降低计算成本。以上操作 可以表示为:
使用矩阵乘积应用于 探索它们之间的相关性,生成注意力图 ,表示为 。将 馈送到图融合模块(GFM)中,表示为 。这个过程将一组像素区域投影到一个顶点上,采用单层GCN来学习区域之间的高级语义关系,并在图上跨顶点信息传播来推理非局部区域以捕获 token 内的全局表示。将顶点特征 馈送到谱图卷积的一阶近似中,可以获得输出
其中 是编码图连接性的邻接矩阵, 是GCN的权重。最后,使用跳过连接将 与基于图的增强表示相结合。使用反序列化 操作将 token 序列转换为与原始特征具有相同维度的2D图像特征进行解码,表示为:
其中 是来自标记的输出本地增强特征。同样,也可以获得

Feature Shrinkage Decoder

常见的解码器如图2(a)-(d)所示,直接聚合具有显著不一致性的特征。例如,它们可能混合低级特征和丰富细节以及高级特征和语义,这可能会引入噪音并且丢失微妙但有价值的线索。
notion image
为了解决这个问题,我们设计了一个特征缩减解码器(FSD)。该解码器使用分层缩减金字塔体系结构逐步成对聚合相邻特征,以累积更多不可感知的有效线索。此外,我们提出了一个相邻交互模块(AIM),该模块与聚合的特征输出交互并合并当前相邻的特征对。
notion image
 
具体而言,设 为当前层的相邻特征对,设 为先前AIM的输出聚合特征。那么,AIM可以被公式化为:
其中, 是传递给下一个AIM的特征, 是当前AIM的输出特征,用于下一层。 由卷积、批量归一化和ReLU操作组成。 分别是连接和 上采样操作。
请注意,FSD包含总共4层收缩金字塔和12个AIMs。整个FSD过程总结如算法1所示。
notion image
最后一个AIM的输出特征由经过sigmoid和上采样操作的地面真实值(G)监督,用于伪装物体预测。

Experiments

Result

notion image
notion image

Ablation Study

notion image
中的 表示用于解码的特征层数。我们可以看到,聚合不同的特征层有助于合并更多的线索,从而提高检测性能。在我们的实验中,聚合所有的 transformer 特征层(即 )提供了最佳性能。
notion image
1️⃣ 使用 U 形解码结构替换 FSD 2️⃣ 使用更简单的操作组合(即串联和 1×1 卷积)替换 AIM 3️⃣ 将 AIM 扩展到聚合三个相邻的特征层 4️⃣ 调整我们的解码器以重叠成对特征聚合,并删除同一层内的侧面监督和特征交互。
我们的解码器和4️⃣大大优于U形解码结构1️⃣,这是因为这种解码器通常直接聚合具有大特征差异的特征(在同一融合层中),并且倾向于丢弃一些微妙但有价值的线索,导致不准确的预测,特别是在从微弱线索中识别伪装对象的任务中。
 

© Lazurite 2021 - 2024