PreyNet: Preying on Camouflaged Objects 论文阅读

date

Oct 27, 2022

Last edited time

Mar 27, 2023 08:37 AM

status

Published

slug

PreyNet论文阅读

tags

summary

type

Post

origin

https://www.notion.so/lazurite/PreyNet-Preying-on-Camouflaged-Objects-c73c7e5fa9e04dd18297ea7d67a838ba

Field

Plat

PreyNet: Preying on Camouflaged Objects | Proceedings of the 30th ACM International Conference on Multimedia

Species often adopt various camouflage strategies to be seamlessly blended into the surroundings for self-protection. To figure out the concealment, predators have evolved excellent hunting skills. Exploring the intrinsic mechanisms of the predation behavior can offer more insightful glimpse into the task of camouflaged object detection (COD).

https://dl.acm.org/doi/abs/10.1145/3503161.3548178

3503161.3548178.pdf

2552.8KB

这篇是 ACM MM 2022 的文章，仓库代码链接在这里，不过还没开源。Oct 27, 2022

GitHub - sxu1997/PreyNet: This is the official implementaion of ACMMM 2022 paper "PreyNet: Preying on Camouflaged Objects".

You can't perform that action at this time. You signed in with another tab or window. You signed out in another tab or window. Reload to refresh your session. Reload to refresh your session.

https://github.com/sxu1997/PreyNet

Introduce

我们提出了一个感知、策略和校准框架，即PreyNet。首先，设计了双向桥接交互模块(BBIM)，用于在初始特征学习中专心选择信息。BBIM通过通道注意和空间注意建模的桥来控制相邻两个特征层之间的消息传递，从而聚合更全面的特征表示，用于初始检测。其次，针对 Predator Learning，提出了一种由策略解码器和校准解码器组成的双解码器结构。策略解码器对当前的分割进行决策，并指出相应的不确定区域，在后续的学习过程中需要重点关注。然后，校准解码器以先验分割和不确定掩码为指导，通过定制的不确定感知校准模块(UACM)对难以检测的区域进行学习。此外，我们根据动态学习过程中估计的不确定性映射计算可靠性评分。它反映了我们对当前预测的信任程度，并其映射可以为多层监督提供自适应权重。与固定加权策略相比，这使我们的网络能够动态适应场景，并确保训练过程中的高稳定性。

Method

BBIM

双向桥接交互模块(BBIM)，其中包含通道注意和空间注意作为连接局部细节路径(包含更多局部细节信息的特征流)和全局语义路径(包含更多全局语义信息的特征流)。

BBIM考虑了相邻特性的差异和互补，可以有选择地利用上一层的全局语义帮助过滤下一层的噪声，同时从下一层提取有价值的细节并补充到上一层。图4显示了经过BBIM处理前后的特征图。我们可以看到，在互补特征整合的情况下，BBIM的输出特征可以编码更细心的伪装线索。

Predator Learning

Predator Learning (即不确定性意识和自我校准)可以进一步提高捕食精度。这增强了捕食者的认知能力。为了模拟捕食者的学习过程，我们设计了一种双译码器结构，它由一个策略译码器和一个校准译码器组成，一个策略译码器根据经验对某些和不确定区域进行判断，另一个校准译码器在指导下对困难区域进行学习。

Policy Decoder

特征图首先转置卷积为两个特征图，与分别送入 Policy Decoder 与 Calibration Decoder。在 Policy Decoder 中的 Decision Head 输出与，分别是初始伪装预测以及相应的不确定性图。我们将不确定性建模为初步分割和 GT （）之间的差异，不确定性图使用这个差异进行监督。

然而，估计的不确定性图可能存在潜在的不准确性或不完备性，因此我们要扩大不确定性覆盖范围，执行以下操作：

表示具有大小为的滑动窗口的最大池化操作。在这项工作中，我们设置来以细粒度的方式扩展不确定区域。

Uncertainty-Aware Calibration Decoder

结构如下：

Adaptive Weight

在本文中，我们利用估计的不确定性映射来为策略解码器中的多层监督提供自适应的权重。

其中是整个不确定性地图中的像素集合，是属于前景区域的像素集合。表示集合中元素的数量。我们将设置为考虑不确定性地图中的所有像素，同时强调前景片段。

计算的可靠性得分表明我们可以多大程度上相信当前的预测，并且在训练过程中动态变化，从而提高网络的稳定性和鲁棒性。

和分别代表策略解码器中第层的分割预测和不确定性预测，表示校准解码器中的最终分割预测。