Stepwise Feature Fusion: Local Guides Global 论文阅读

date
Apr 1, 2023
Last edited time
Apr 1, 2023 06:20 AM
status
Published
slug
Stepwise_Feature_Fusion论文阅读
tags
DL
CV
summary
type
Post
Field
Plat
💡
我们使用 PVTv2 和Segformer的编码器设计来构建编码器。

Abstract

我们提出了 SSFormer,这是一种新的医学图像分割最先进模型,它使用 Pyramid Transformer 编码器来提高模型的泛化能力。我们还提出了逐层局部解码器,该解码器可以适应 Pyramid Transformer 骨干网络,以强调局部特征并限制注意力扩散。
在我们的模型中,解码器采用了基于多阶段特征聚合结构的 Progressive Locality Decoder(PLD)。该结构可以使不同深度和表达能力的特征相互指导,解决了注意力分散和低估局部特征的问题,并提高了详细处理能力。我们提出的PLD采用逐步自适应方法来强调局部特征并将其整合到全局特征中,使特征融合更加高效。

Method

notion image

Aggregate Local and Global Features Stepwise (PLD)

我们认为现有的Transformer模型缺乏处理本地和详细信息并专注于关键详细特征(例如轮廓、静脉和纹理)的能力。因此,该模型可能很难定位更具决定性的本地特征分布(例如,粘膜可以被视为由独特的静脉和纹理等本地特征组成的分布)。
为解决这个问题,我们提出了一种新颖的多阶段特征聚合解码器PLD,用于特征金字塔。如图1(a)所示,PLD包括 Local Emphasis(LE)模块和 Stepwise Feature Aggregation(SFA)模块。
如图2(a)所示,经过PLD融合多阶段特征后,预测头可以准确地聚焦于关键目标。此外,我们的PLD可用于其他 Pyramid Transformer编码器,并提高模型的准确性。
notion image

Local Emphasis

在 Transformer 中,图像中的每个 patch 都与所有其他 patch 的信息组合在一起,无论它们的相关性如何。这可能导致注意力分散或崩溃,尤其是在进行了许多自我注意操作之后。为了减少注意力分散,我们使用卷积核的局部感受野设计了 LE 模块。这增加了 patch 周围 patch 的权重,重新聚焦邻近特征。
通过使用卷积算子的固定感受野,我们混合相邻 patch 的特征,增加了与中心 patch 相邻 patch 的相关权重。这强调了每个 patch 的局部特征。由于来自不同深度的特征流的特征类型不同,因此我们不共享特征金字塔中不同级别的特征流的卷积权重。增强本地特征的公式如下:
从图1(a)中给出的特征图中可以看出,LE可以有效地清除混杂的噪声并强调关键的局部特征。在图2(b)中,经过LE处理的特征流重新压缩了无序的注意力,同时保留了关键细节,如轮廓和边界。
💡
Feature Shrinkage Pyramid for Camouflaged Object Detection with Transformers 里的Non-local Token Enhancement Module 类似, 聚合临近 token 的信息

Stepwise Feature Aggregation (SFA)

[13]研究表明,Transformer 模型中通过残差连接交换的信息量比 CNN 模型更显著。这种现象可以理解为 Transformer 中不同深度特征之间具有较弱的相关性,需要不同深度的层之间进行大量信息交换来相互指导。因此,我们认为在 Transformer 中直接并行聚合不同阶段的特征,尤其是那些深度差异显著的特征,可能会产生 Information Gap。
为了使特征聚合尽可能平滑,SFA 从上到下逐步融合特征金字塔中不同级别的特征。这种特征融合方法可以减少融合高维和低维特征之间的信息差距。
由于特征流在经过LE模块后具有相同的形状,我们可以在特征融合单元中使用连接或加法操作。在表4中,我们看到两者表现都很好。Concat 是SSFormer的默认设置。
💡
[13] Do vision transformers see like convolutional neural networks? I

Experiments

Result

notion image
notion image

Ablation Study

notion image
notion image

© Lazurite 2021 - 2024