Stepwise Feature Fusion: Local Guides Global 论文阅读
date
Apr 1, 2023
Last edited time
Apr 1, 2023 06:20 AM
status
Published
slug
Stepwise_Feature_Fusion论文阅读
tags
DL
CV
summary
type
Post
Field
Plat
AbstractMethodAggregate Local and Global Features Stepwise (PLD)Local EmphasisStepwise Feature Aggregation (SFA)ExperimentsResultAblation Study
我们使用 PVTv2 和Segformer的编码器设计来构建编码器。
Abstract
我们提出了 SSFormer,这是一种新的医学图像分割最先进模型,它使用 Pyramid Transformer 编码器来提高模型的泛化能力。我们还提出了逐层局部解码器,该解码器可以适应 Pyramid Transformer 骨干网络,以强调局部特征并限制注意力扩散。
在我们的模型中,解码器采用了基于多阶段特征聚合结构的 Progressive Locality Decoder(PLD)。该结构可以使不同深度和表达能力的特征相互指导,解决了注意力分散和低估局部特征的问题,并提高了详细处理能力。我们提出的PLD采用逐步自适应方法来强调局部特征并将其整合到全局特征中,使特征融合更加高效。
Method
Aggregate Local and Global Features Stepwise (PLD)
我们认为现有的Transformer模型缺乏处理本地和详细信息并专注于关键详细特征(例如轮廓、静脉和纹理)的能力。因此,该模型可能很难定位更具决定性的本地特征分布(例如,粘膜可以被视为由独特的静脉和纹理等本地特征组成的分布)。
为解决这个问题,我们提出了一种新颖的多阶段特征聚合解码器PLD,用于特征金字塔。如图1(a)所示,PLD包括 Local Emphasis(LE)模块和 Stepwise Feature Aggregation(SFA)模块。
如图2(a)所示,经过PLD融合多阶段特征后,预测头可以准确地聚焦于关键目标。此外,我们的PLD可用于其他 Pyramid Transformer编码器,并提高模型的准确性。
Local Emphasis
在 Transformer 中,图像中的每个 patch 都与所有其他 patch 的信息组合在一起,无论它们的相关性如何。这可能导致注意力分散或崩溃,尤其是在进行了许多自我注意操作之后。为了减少注意力分散,我们使用卷积核的局部感受野设计了 LE 模块。这增加了 patch 周围 patch 的权重,重新聚焦邻近特征。
通过使用卷积算子的固定感受野,我们混合相邻 patch 的特征,增加了与中心 patch 相邻 patch 的相关权重。这强调了每个 patch 的局部特征。由于来自不同深度的特征流的特征类型不同,因此我们不共享特征金字塔中不同级别的特征流的卷积权重。增强本地特征的公式如下:
从图1(a)中给出的特征图中可以看出,LE可以有效地清除混杂的噪声并强调关键的局部特征。在图2(b)中,经过LE处理的特征流重新压缩了无序的注意力,同时保留了关键细节,如轮廓和边界。
与 Feature Shrinkage Pyramid for Camouflaged Object Detection with Transformers 里的Non-local Token Enhancement Module 类似, 聚合临近 token 的信息
Stepwise Feature Aggregation (SFA)
[13]研究表明,Transformer 模型中通过残差连接交换的信息量比 CNN 模型更显著。这种现象可以理解为 Transformer 中不同深度特征之间具有较弱的相关性,需要不同深度的层之间进行大量信息交换来相互指导。因此,我们认为在 Transformer 中直接并行聚合不同阶段的特征,尤其是那些深度差异显著的特征,可能会产生 Information Gap。
为了使特征聚合尽可能平滑,SFA 从上到下逐步融合特征金字塔中不同级别的特征。这种特征融合方法可以减少融合高维和低维特征之间的信息差距。
由于特征流在经过LE模块后具有相同的形状,我们可以在特征融合单元中使用连接或加法操作。在表4中,我们看到两者表现都很好。Concat 是SSFormer的默认设置。
[13] Do vision transformers see like convolutional neural networks? I