CamoFormer: Masked Separable Attention 论文阅读

date
Feb 15, 2023
Last edited time
Mar 27, 2023 08:36 AM
status
Published
slug
CamoFormer论文阅读
tags
DL
CV
summary
type
Post
Field
Plat

Abstract

  • Problem
    • notion image
      目前最先进的(SOTA)方法仍然难以将细微形状的伪装目标分割出来,尤其是在复杂的场景中。
  • Method
    • 我们认为,一个重要的原因是,这些模型不加区分地处理前景和背景线索,使得很难从相似的环境中识别出伪装物体。解决这个问题的关键是将前景和背景线索分别编码。
      我们首先将多头自注意力分为三部分,它们负责使用不同的掩码策略将伪装物体与背景区分开来,我们将不同的功能分配给不同的注意头来分别处理前景和背景区域。此外,我们基于所提出的MSA逐步捕获高分辨率语义表示,以获得精确的分割结果。

Method

notion image

Overall Architecture

我们采用PVTv2 [55] 作为我们的编码器,我们聚合来自编码器最后三个阶段的特征 E2,E3,E4E_2,E_3,E_4,并将它们送入卷积块,产生具有更高级语义的表示 E5E_5
为了在效率和性能之间取得折衷,我们首先在 Decoder 的每个级别连接一个1×1卷积,其通道数为 Cd=128C_d = 128。在每个特征级别,Masked Separable Attention (MSA) 用于更好地区分伪装对象和背景。聚合特征 DiD_i 可以写成:
D4=MSA(E5)Fup(E4)+Fup(E4)Di=Fup(MSA(Di+1))Ei+EiD _ { 4 } = \operatorname { MSA } \left( E _ { 5 } \right) \cdot \mathcal { F } _ { \mathrm { up } } \left( E _ { 4 } \right) + \mathcal { F } _ { \mathrm { up } } \left( E _ { 4 } \right) \\ D _ { i } = \mathcal { F } _ { \mathrm { up } } \left( \operatorname { MSA } \left( D _ { i + 1 } \right) \right) \cdot E _ { i } + E _ { i }
💡
不像以前的作品主要使用加法或连接操作来融合不同层次的特征,我们首先计算它们之间的元素乘积,然后使用求和操作。我们凭经验发现,这样一个简单的修改带来了0.2%以上的相对改进。
Loss function
我们在每个级别都进行监督学习: L(P,G)=i=15Lbce(Pi,G)+Liou(Pi,G)\mathcal { L } ( P , G ) = \sum _ { i = 1 } ^ { 5 } \mathcal { L } _ { b c e } \left( P _ { i } , G \right) + \mathcal { L } _ { i o u } \left( P _ { i } , G \right)

Masked Separable Attention

notion image
伪装目标的大小各不相同,且与背景高度相似,使其难以完全分割。准确识别它们与背景的区别至关重要。为了解决这个问题,我们提出了带有掩码的可分离注意力(MSA),其中不同的注意力头负责不同的功能。
给定输入XRH×W×CX \in \mathbb{R}^{H \times W \times C},其中 HHWW 分别是高度和宽度,而 CC 是通道数,TA的公式如下:
TA(Q,K,V)=VSoftmax(QKα)\mathrm { TA } ( \mathbf { Q } , \mathbf { K } , \mathbf { V } ) = \mathbf { V } \cdot \operatorname { Softmax } \left( \frac { \mathbf { Q } ^ { \top } \mathbf { K } } { \alpha } \right)
其中 QQKKVV 是可以通过使用三个单独的 1×11 \times 1卷积加上一个 3×33 \times 3 深度卷积来生成的矩阵,α\alpha 是一个可学习的缩放参数。
我们建议在TA中引入一个预测掩码,它可以在每个特征级别生成,作为前景-背景对比先验,以更好地识别伪装物体。为此,我们将所有注意力头分为三组:TA (F-TA)、TA (B-TA) 和 TA.
具体来说,给定一个预测的前景掩码 MF ,F-TA 的公式可以写成:
FTA(QF,KF,VF)=VFSoftmax(QFKFαF)\mathrm { F } - \mathrm { TA } \left( \mathbf { Q } _ { F } , \mathbf { K } _ { F } , \mathbf { V } _ { F } \right) = \mathbf { V } _ { F } \cdot \operatorname { Softmax } \left( \frac { \mathbf { Q } _ { F } ^ { \top } \mathbf { K } _ { F } } { \alpha _ { F } } \right)
其中 QFQ_FKFK_F 是经过乘以 MFM_FVFV_F 而产生的被遮蔽的查询和键矩阵,VFV_F 是未被遮蔽的值矩阵。
然后将所有头的输出连接起来并发送到 3×33×3 卷积中进行特征聚合,并将通道数映射到 CdC_d
Z=Conv3×3([ FTA,BTA,TA])\mathbf { Z } = \operatorname { Conv } _ { 3 \times 3 } ( [ \mathrm {~F} - \mathrm { TA } , \mathrm { B } - \mathrm { TA } , \mathrm { TA } ] )

Result

notion image

Ablation Study

notion image
notion image

© Lazurite 2021 - 2025