MVSalNet:Multi-View Augmentation for RGB-D Salient Object Detection 论文阅读Lazurite, This is my personal website

MVSalNet:Multi-View Augmentation for RGB-D Salient Object Detection 论文阅读

date

Feb 13, 2023

Last edited time

Mar 27, 2023 08:37 AM

status

Published

slug

MVSalNet论文阅读

tags

DL

CV

summary

type

Post

origin

https://www.notion.so/lazurite/MVSalNet-Multi-View-Augmentation-for-RGB-D-Salient-Object-Detection-331c4ed3bbfe42ed9c42d584377814e3?pvs=4

Field

Plat

MVSalNet: Multi-view Augmentation for RGB-D Salient Object Detect

RGB-D salient object detection (SOD) enjoys significant advantages in understanding 3D geometry of the scene. However, the geometry information conveyed by depth maps are mostly under-explored in existing RGB-D SOD methods. In this paper, we propose a new framework...

https://link.springer.com/10.1007/978-3-031-19818-2_16

MVSalNet: Multi-view Augmentation for RGB-D Salient Object Detect

Zhou 等 - 2022 - MVSalNet Multi-view Augmentation for RGB-D Salien.pdf

Abstract Method Multi-View Rendering Transformer-Based Dynamic Filtering Module Multi-View Fusion Loss Function Experiments Result Ablation Study

Abstract

Problem

由于深度图和RGB图像来自两种不同的模态，其间存在显著的差距，因此现有方法主要将深度信息作为附加输入通道，以提供低级别的线索，而基本的3D几何信息却未得到充分利用。

Method

notion image

我们使用深度图渲染的多个不同视图来增强输入图像，并将传统的单视图RGB-D SOD转换为多视图设置。我们不仅仅利用深度图作为低级别的线索，还利用其中包含的三维几何图形来渲染输入图像的不同视图，从而允许从单个静态图像模拟多视图感知。由于不同的视图可以捕捉输入场景的不同上下文，并且彼此互补，因此从多个视图聚合的显着性预测显示出更准确和更强大的性能。

Contribution

我们生成多视图 RGB 图像来替换原始深度图，通过这种方式，我们明确地消除了模态间隙；

通过使用后期融合来融合多视图显着性结果，可以大大减少低质量深度图中的噪声。

Method

notion image

Multi-View Rendering

notion image

我们开发了一个多视图渲染模块，以有效地增强输入图像的多个视图。我们的基本原则是从场景深度重建三维点云，然后将其投影到目标新视图以渲染RGB图像。

对于由于遮挡、视野外等原因导致的渲染图像或显着图中的缺失区域，我们用 0 填充缺失值。

notion image

Transformer-Based Dynamic Filtering Module

notion image

TDF 模块旨在生成一个位置特定的动态过滤器，然后可以将其应用于解码器中的相应特征。

我们首先将输入编码器特征分成 1×1 块，以产生为输入特征图上的每个空间位置生成三个卷积核。

Multi-View Fusion

解码器预测输入图像的显着图和两个增强视图的、。我们首先将两个增强视图的显着性预测还原到输入视图，以分别获得显着性图和。我们将扭曲的增强视图添加在一起，作为，以解决具有缺失值的遮挡或视野外区域。为了实现更有效的多视图融合，我们采用逐元素乘法和加法来组合当前视图和增强视图显着图：

能够抑制虚假的正背景噪声，而允许识别虚假的前景区域。然后，我们沿着通道维度将和连接起来，并将它们的拼接送入到额外的卷积层以生成输入图像的最终显著性图。

Loss Function

直接使用二元交叉熵（BCE）损失和混合增强损失（HEL）作为损失函数。

Experiments

Result

notion image

notion image

Ablation Study

Multi-view augmentation

notion image

Transformer-Based Dynamic Filtering Module

“SK”意味着使用没有TDF的正常跳跃连接。“无扩张”意味着我们只使用一个SW-MSA头，扩张率为1。“扩张嵌入”意味着我们使用一个SW-MSA头，但使用并行扩张率为1、3、5的扩张卷积嵌入特征，并连接输出。“DDPM”意味着我们用CNN动态过滤分支替换模型中的TDF模块。

notion image

Multi-view Fusion

“add”意味着直接在原始视图中添加三个显着图。 “supervise two”指的是在原始视图中分别监督两个合成RGB图像的显着图。

notion image

© Lazurite 2021 - 2025