CamoFormer: Masked Separable Attention 论文阅读

date

Feb 15, 2023

Last edited time

Mar 27, 2023 08:36 AM

status

Published

slug

CamoFormer论文阅读

tags

summary

type

Post

origin

Field

Plat

Abstract

目前最先进的（SOTA）方法仍然难以将细微形状的伪装目标分割出来，尤其是在复杂的场景中。

我们认为，一个重要的原因是，这些模型不加区分地处理前景和背景线索，使得很难从相似的环境中识别出伪装物体。解决这个问题的关键是将前景和背景线索分别编码。

我们首先将多头自注意力分为三部分，它们负责使用不同的掩码策略将伪装物体与背景区分开来，我们将不同的功能分配给不同的注意头来分别处理前景和背景区域。此外，我们基于所提出的MSA逐步捕获高分辨率语义表示，以获得精确的分割结果。

我们采用PVTv2 [55] 作为我们的编码器，我们聚合来自编码器最后三个阶段的特征，并将它们送入卷积块，产生具有更高级语义的表示。

为了在效率和性能之间取得折衷，我们首先在 Decoder 的每个级别连接一个1×1卷积，其通道数为。在每个特征级别，Masked Separable Attention (MSA) 用于更好地区分伪装对象和背景。聚合特征可以写成：

💡

不像以前的作品主要使用加法或连接操作来融合不同层次的特征，我们首先计算它们之间的元素乘积，然后使用求和操作。我们凭经验发现，这样一个简单的修改带来了0.2％以上的相对改进。

Loss function

我们在每个级别都进行监督学习:

伪装目标的大小各不相同，且与背景高度相似，使其难以完全分割。准确识别它们与背景的区别至关重要。为了解决这个问题，我们提出了带有掩码的可分离注意力（MSA），其中不同的注意力头负责不同的功能。

给定输入，其中和分别是高度和宽度，而是通道数，TA的公式如下：

其中、和是可以通过使用三个单独的卷积加上一个深度卷积来生成的矩阵，是一个可学习的缩放参数。

我们建议在TA中引入一个预测掩码，它可以在每个特征级别生成，作为前景-背景对比先验，以更好地识别伪装物体。为此，我们将所有注意力头分为三组：TA (F-TA)、TA (B-TA) 和 TA.

具体来说，给定一个预测的前景掩码 MF ，F-TA 的公式可以写成：

其中、是经过乘以和而产生的被遮蔽的查询和键矩阵，是未被遮蔽的值矩阵。

然后将所有头的输出连接起来并发送到卷积中进行特征聚合，并将通道数映射到：