PreyNet: Preying on Camouflaged Objects 论文阅读
date
Oct 27, 2022
Last edited time
Mar 27, 2023 08:37 AM
status
Published
slug
PreyNet论文阅读
tags
DL
CV
summary
type
Post
Field
Plat
这篇是 ACM MM 2022 的文章,仓库代码链接在这里,不过还没开源。Oct 27, 2022
Introduce
我们提出了一个感知、策略和校准框架,即PreyNet。首先,设计了双向桥接交互模块(BBIM),用于在初始特征学习中专心选择信息。BBIM通过通道注意和空间注意建模的桥来控制相邻两个特征层之间的消息传递,从而聚合更全面的特征表示,用于初始检测。其次,针对 Predator Learning,提出了一种由策略解码器和校准解码器组成的双解码器结构。策略解码器对当前的分割进行决策,并指出相应的不确定区域,在后续的学习过程中需要重点关注。然后,校准解码器以先验分割和不确定掩码为指导,通过定制的不确定感知校准模块(UACM)对难以检测的区域进行学习。此外,我们根据动态学习过程中估计的不确定性映射计算可靠性评分。它反映了我们对当前预测的信任程度,并其映射可以为多层监督提供自适应权重。与固定加权策略相比,这使我们的网络能够动态适应场景,并确保训练过程中的高稳定性。
Method
BBIM
双向桥接交互模块(BBIM),其中包含通道注意和空间注意作为连接局部细节路径(包含更多局部细节信息的特征流)和全局语义路径(包含更多全局语义信息的特征流)。
BBIM考虑了相邻特性的差异和互补,可以有选择地利用上一层的全局语义帮助过滤下一层的噪声,同时从下一层提取有价值的细节并补充到上一层。图4显示了经过BBIM处理前后的特征图。我们可以看到,在互补特征整合的情况下,BBIM的输出特征可以编码更细心的伪装线索。
Predator Learning
Predator Learning (即不确定性意识和自我校准)可以进一步提高捕食精度。这增强了捕食者的认知能力。为了模拟捕食者的学习过程,我们设计了一种双译码器结构,它由一个策略译码器和一个校准译码器组成,一个策略译码器根据经验对某些和不确定区域进行判断,另一个校准译码器在指导下对困难区域进行学习。
Policy Decoder
特征图 首先转置卷积为两个特征图, 与 分别送入 Policy Decoder 与 Calibration Decoder。在 Policy Decoder 中的 Decision Head 输出 与 ,分别是初始伪装预测以及相应的不确定性图。我们将不确定性建模为初步分割和 GT () 之间的差异 ,不确定性图使用这个差异进行监督。
然而,估计的不确定性图可能存在潜在的不准确性或不完备性,因此我们要扩大 不确定性覆盖范围,执行以下操作:
表示具有大小为 的滑动窗口的最大池化操作。在这项工作中,我们设置 来以细粒度的方式扩展不确定区域。
Uncertainty-Aware Calibration Decoder
结构如下:
Adaptive Weight
在本文中,我们利用估计的不确定性映射来为策略解码器中的多层监督提供自适应的权重。
其中 是整个不确定性地图 中的像素集合, 是属于前景区域的像素集合。 表示集合中元素的数量。我们将 设置为考虑不确定性地图中的所有像素,同时强调前景片段。
计算的可靠性得分表明我们可以多大程度上相信当前的预测,并且在训练过程中动态变化,从而提高网络的稳定性和鲁棒性。
和 分别代表策略解码器中第 层的分割预测和不确定性预测, 表示校准解码器中的最终分割预测。