MVSalNet:Multi-View Augmentation for RGB-D Salient Object Detection 论文阅读
date
Feb 13, 2023
Last edited time
Mar 27, 2023 08:37 AM
status
Published
slug
MVSalNet论文阅读
tags
DL
CV
summary
type
Post
Field
Plat
AbstractMethodMulti-View RenderingTransformer-Based Dynamic Filtering ModuleMulti-View FusionLoss FunctionExperimentsResultAblation Study
Abstract
- Problem
由于深度图和RGB图像来自两种不同的模态,其间存在显著的差距,因此现有方法主要将深度信息作为附加输入通道,以提供低级别的线索,而基本的3D几何信息却未得到充分利用。
- Method
我们使用深度图渲染的多个不同视图来增强输入图像,并将传统的单视图RGB-D SOD转换为多视图设置。我们不仅仅利用深度图作为低级别的线索,还利用其中包含的三维几何图形来渲染输入图像的不同视图,从而允许从单个静态图像模拟多视图感知。由于不同的视图可以捕捉输入场景的不同上下文,并且彼此互补,因此从多个视图聚合的显着性预测显示出更准确和更强大的性能。
- Contribution
- 我们生成多视图 RGB 图像来替换原始深度图,通过这种方式,我们明确地消除了模态间隙;
- 通过使用后期融合来融合多视图显着性结果,可以大大减少低质量深度图中的噪声。
Method
Multi-View Rendering
我们开发了一个多视图渲染模块,以有效地增强输入图像的多个视图。我们的基本原则是从场景深度重建三维点云,然后将其投影到目标新视图以渲染RGB图像。
对于由于遮挡、视野外等原因导致的渲染图像或显着图中的缺失区域,我们用 0 填充缺失值。
Transformer-Based Dynamic Filtering Module
TDF 模块旨在生成一个位置特定的动态过滤器,然后可以将其应用于解码器中的相应特征。
我们首先将输入编码器特征分成 1×1 块,以产生为输入特征图上的每个空间位置生成三个卷积核。
Multi-View Fusion
解码器预测输入图像的显着图 和两个增强视图的 、。我们首先将两个增强视图的显着性预测还原到输入视图,以分别获得显着性图 和 。我们将扭曲的增强视图添加在一起,作为 ,以解决具有缺失值的遮挡或视野外区域。为了实现更有效的多视图融合,我们采用逐元素乘法和加法来组合当前视图和增强视图显着图:
能够抑制虚假的正背景噪声,而 允许识别虚假的前景区域。然后,我们沿着通道维度将 和 连接起来,并将它们的拼接送入到额外的卷积层以生成输入图像的最终显著性图 。
Loss Function
直接使用二元交叉熵(BCE)损失和混合增强损失(HEL)作为损失函数。
Experiments
Result
Ablation Study
- Multi-view augmentation
- Transformer-Based Dynamic Filtering Module
“SK”意味着使用没有TDF的正常跳跃连接。“无扩张”意味着我们只使用一个SW-MSA头,扩张率为1。“扩张嵌入”意味着我们使用一个SW-MSA头,但使用并行扩张率为1、3、5的扩张卷积嵌入特征,并连接输出。“DDPM”意味着我们用CNN动态过滤分支替换模型中的TDF模块。
- Multi-view Fusion
“add”意味着直接在原始视图中添加三个显着图。 “supervise two”指的是在原始视图中分别监督两个合成RGB图像的显着图。