Bilateral Attention Network for RGB-D Salient Object Detection 论文阅读
date
Mar 10, 2023
Last edited time
Mar 27, 2023 08:27 AM
status
Published
slug
Bilateral_Attention_Network_for_RGB-D_Salient_Object_Detection论文阅读
tags
DL
CV
summary
这个残差预测有点用, 以前的都是分心挖掘的方式
type
Post
Field
Plat
Abstract
大多数现有的 RGB-D 显着目标检测(SOD)方法在利用深度图像时都关注前景区域。然而,背景也能为传统 SOD 方法提供重要信息,以获得更好的性能。
在本文中,我们提出了一个双边注意网络(BiANet),以协同学习来自 RGB 和深度流的前景和背景特征,以获得更好的 RGB-D SOD 性能。
我们的 BiANet 采用双流架构,RGB 和深度流的侧输出在多个阶段连接。首先,我们使用高级语义特征 来定位前景和背景区域 。然而,初始显着图 粗糙且分辨率低。为了增强粗显着图,我们设计了一个双边注意模块(BAM),它由互补的前景优先(FF)注意和背景优先(BF)注意机制组成。
其次,我们提出了 BAM 的多尺度扩展(MBAM)以有效地学习多尺度上下文信息,并捕获局部和全局显着性信息以进一步提高 SOD 性能。
Method
BiANet包含三个主要步骤:特征提取,预测上采样和双边注意残差补偿。
特征提取
我们使用两个编码通道来分别提取RGB和深度信息。
使用VGG16的五个卷积块作为backbone,并附上具有三个卷积层的附加卷积组。一共会产生6个输出,以级联的方式逐级细化预测显著图。
预测上采样
经过高级特征预测得出的初始显着性图在低分辨率下呈现出较为粗糙的特征,但其对于确定前景和背景的初步位置非常有帮助,因为其中包含了丰富的语义信息。为了优化这种粗糙的显著图 ,我们使用了包含了更多的细节信息的较低级别的特征 。借助BAM的辅助,我们可以预测出更高级别预测和 ground truth(GT)之间的残差分量。将预测的残差分量 添加到 中,从而获得了更加精细的预测 。通过逐级的优化,我们可以得到更高质量的预测结果。具体而言,公式如下所示:
其中 表示上采样。最后,我们的 BiANet 通过 获得显着图。
双边注意残差补偿 BAM
为了获得更好的残差并区分上采样的前景和背景区域,我们设计了一个双边注意模块(BAM)使我们的 BiANet 能够区分前景和背景。
考虑到前景和背景的分布是完全不同的,我们使用一对相反的注意组件设计双边注意模块,以分别从前景和背景中学习特征,然后共同细化预测。
然后,我们分别应用 FF 和 BF 对两个分支中的侧输出特征进行加权,并进一步联合预测残差分量。
其中 是 通道缩减后的特征,使用 32 个 1×1 卷积来降低计算成本。 表示由32个大小为3×3的卷积核和一个ReLU层组成的特征提取操作。两个分支不共享参数。 表示串联。 是预测层,在与 进行相同的特征提取操作后,通过 3×3 内核输出单通道残差图。
为了更好地理解BAM的工作机制,我们在上图中可视化了来自不同级别BAM的通道平均特征。在BAM中,首先通过乘以FF和BF的注意图获得两个分支,其结果在黄色(FF特征)和蓝色(BF特征)框的左半部分中呈现。我们可以看到,FF分支将注意力转移到从更高级别预测的前景区域,以探索前景显着性提示。在卷积层之后,给出了不确定区域更高的优先级。相反,BF分支则专注于探索背景线索的背景区域,并寻找其中可能的突出对象。
我们可以看到,FF和BF分支都侧重于不确定区域,例如对象边界。低分辨率和高分辨率的FF分支将消除不确定区域的溢出,而BF分支将消除不属于背景的不确定区域。这是BIANET在细节上表现更好的一个重要原因,因为它容易预测尖锐的边缘。在联合推断之后,我们可以看到双边增强的特征包含前景和背景的更多辨别空间信息。生成的残余部分具有边缘上鲜明的对比度,然后抑制背景区域并增强前景区域。
损失函数
为了快速收敛,我们还在深度流输出 、RGB 流输出 和 中应用深度监督。
MBAM
我们用多尺度版本扩展了我们的 BAM,其中扩张卷积组用于从未确定的前景和背景区域中提取多尺度表示。
由具有 32 个通道的 1×1 内核和一个 ReLU 层组成。 是一组 dilated 卷积,大小为 3、5 和 7。它们均由具有 32 个通道的 3×3 内核和一个 ReLU 层组成。
我们可以看到目标对象(马)在场景中占了很大的比例。由于无法有效感知多尺度信息,BAM 无法在高层捕捉到准确的全局显着区域,最终导致预测不完整。