Stepwise Feature Fusion: Local Guides Global 论文阅读

date

Apr 1, 2023

Last edited time

Apr 1, 2023 06:20 AM

status

Published

slug

Stepwise_Feature_Fusion论文阅读

Abstract

我们提出了 SSFormer，这是一种新的医学图像分割最先进模型，它使用 Pyramid Transformer 编码器来提高模型的泛化能力。我们还提出了逐层局部解码器，该解码器可以适应 Pyramid Transformer 骨干网络，以强调局部特征并限制注意力扩散。

在我们的模型中，解码器采用了基于多阶段特征聚合结构的 Progressive Locality Decoder（PLD）。该结构可以使不同深度和表达能力的特征相互指导，解决了注意力分散和低估局部特征的问题，并提高了详细处理能力。我们提出的PLD采用逐步自适应方法来强调局部特征并将其整合到全局特征中，使特征融合更加高效。

Method

Aggregate Local and Global Features Stepwise (PLD)

我们认为现有的Transformer模型缺乏处理本地和详细信息并专注于关键详细特征（例如轮廓、静脉和纹理）的能力。因此，该模型可能很难定位更具决定性的本地特征分布（例如，粘膜可以被视为由独特的静脉和纹理等本地特征组成的分布）。

为解决这个问题，我们提出了一种新颖的多阶段特征聚合解码器PLD，用于特征金字塔。如图1(a)所示，PLD包括 Local Emphasis（LE）模块和 Stepwise Feature Aggregation（SFA）模块。

如图2(a)所示，经过PLD融合多阶段特征后，预测头可以准确地聚焦于关键目标。此外，我们的PLD可用于其他 Pyramid Transformer编码器，并提高模型的准确性。

Local Emphasis

在 Transformer 中，图像中的每个 patch 都与所有其他 patch 的信息组合在一起，无论它们的相关性如何。这可能导致注意力分散或崩溃，尤其是在进行了许多自我注意操作之后。为了减少注意力分散，我们使用卷积核的局部感受野设计了 LE 模块。这增加了 patch 周围 patch 的权重，重新聚焦邻近特征。

通过使用卷积算子的固定感受野，我们混合相邻 patch 的特征，增加了与中心 patch 相邻 patch 的相关权重。这强调了每个 patch 的局部特征。由于来自不同深度的特征流的特征类型不同，因此我们不共享特征金字塔中不同级别的特征流的卷积权重。增强本地特征的公式如下：

从图1（a）中给出的特征图中可以看出，LE可以有效地清除混杂的噪声并强调关键的局部特征。在图2（b）中，经过LE处理的特征流重新压缩了无序的注意力，同时保留了关键细节，如轮廓和边界。

💡

与 Feature Shrinkage Pyramid for Camouflaged Object Detection with Transformers 里的Non-local Token Enhancement Module 类似, 聚合临近 token 的信息

Feature Shrinkage Pyramid for Camouflaged Object Detection with Transformers 论文阅读

https://lazurite.icu/FSPNet论文阅读#cdb63cf78a0a47edb99d1be2c79063e1

Stepwise Feature Aggregation (SFA)

[13]研究表明，Transformer 模型中通过残差连接交换的信息量比 CNN 模型更显著。这种现象可以理解为 Transformer 中不同深度特征之间具有较弱的相关性，需要不同深度的层之间进行大量信息交换来相互指导。因此，我们认为在 Transformer 中直接并行聚合不同阶段的特征，尤其是那些深度差异显著的特征，可能会产生 Information Gap。

为了使特征聚合尽可能平滑，SFA 从上到下逐步融合特征金字塔中不同级别的特征。这种特征融合方法可以减少融合高维和低维特征之间的信息差距。

由于特征流在经过LE模块后具有相同的形状，我们可以在特征融合单元中使用连接或加法操作。在表4中，我们看到两者表现都很好。Concat 是SSFormer的默认设置。

💡

[13] Do vision transformers see like convolutional neural networks? I