CamoFormer: Masked Separable Attention 论文阅读

date
Feb 15, 2023
Last edited time
Mar 27, 2023 08:36 AM
status
Published
slug
CamoFormer论文阅读
tags
DL
CV
summary
type
Post
Field
Plat

Abstract

  • Problem
    • notion image
      目前最先进的(SOTA)方法仍然难以将细微形状的伪装目标分割出来,尤其是在复杂的场景中。
  • Method
    • 我们认为,一个重要的原因是,这些模型不加区分地处理前景和背景线索,使得很难从相似的环境中识别出伪装物体。解决这个问题的关键是将前景和背景线索分别编码。
      我们首先将多头自注意力分为三部分,它们负责使用不同的掩码策略将伪装物体与背景区分开来,我们将不同的功能分配给不同的注意头来分别处理前景和背景区域。此外,我们基于所提出的MSA逐步捕获高分辨率语义表示,以获得精确的分割结果。

Method

notion image

Overall Architecture

我们采用PVTv2 [55] 作为我们的编码器,我们聚合来自编码器最后三个阶段的特征 ,并将它们送入卷积块,产生具有更高级语义的表示
为了在效率和性能之间取得折衷,我们首先在 Decoder 的每个级别连接一个1×1卷积,其通道数为 。在每个特征级别,Masked Separable Attention (MSA) 用于更好地区分伪装对象和背景。聚合特征 可以写成:
💡
不像以前的作品主要使用加法或连接操作来融合不同层次的特征,我们首先计算它们之间的元素乘积,然后使用求和操作。我们凭经验发现,这样一个简单的修改带来了0.2%以上的相对改进。
Loss function
我们在每个级别都进行监督学习:

Masked Separable Attention

notion image
伪装目标的大小各不相同,且与背景高度相似,使其难以完全分割。准确识别它们与背景的区别至关重要。为了解决这个问题,我们提出了带有掩码的可分离注意力(MSA),其中不同的注意力头负责不同的功能。
给定输入,其中 分别是高度和宽度,而 是通道数,TA的公式如下:
其中 是可以通过使用三个单独的 卷积加上一个 深度卷积来生成的矩阵, 是一个可学习的缩放参数。
我们建议在TA中引入一个预测掩码,它可以在每个特征级别生成,作为前景-背景对比先验,以更好地识别伪装物体。为此,我们将所有注意力头分为三组:TA (F-TA)、TA (B-TA) 和 TA.
具体来说,给定一个预测的前景掩码 MF ,F-TA 的公式可以写成:
其中 是经过乘以 而产生的被遮蔽的查询和键矩阵, 是未被遮蔽的值矩阵。
然后将所有头的输出连接起来并发送到 卷积中进行特征聚合,并将通道数映射到

Result

notion image

Ablation Study

notion image
notion image

© Lazurite 2021 - 2023