Uncertainty Inspired RGB-D Saliency Detection 论文阅读

date

Dec 3, 2022

Last edited time

Mar 27, 2023 08:40 AM

status

Published

slug

Uncertainty_Inspired_RGB-D_Saliency_Detection论文阅读

Abstract

问题

现有的 RGB-D 显着性检测模型通过根据确定性学习 Pipeline 来预测单个显着性图，将此任务视为点估计问题。然而，视觉显着性检测在一定程度上具有主观性。每个人在标记显着图时都可以有特定的偏好。更准确地说，GT 标记过程从来都不是确定性过程，显着的前景对于一个注释者，可能会被其他注释者定义为背景。

我们感兴趣的不是执行点估计，而是网络如何通过生成的不同显着图实现分布估计，捕捉人类注释的不确定性。

解决方案

我们提出了一种生成架构来实现概率性 RGB-D 显着性检测，其中潜在变量对注释中的人类不确定性进行建模。

我们的框架包括两个主要模型：1) 生成器（即编码器-解码器）模型，它将输入的 RGB-D 数据和潜在变量映射到随机显着性预测，以及 2) 推理模型，通过从真实或近似后验分布中采样来逐渐更新潜在变量。

Method

我们提出了我们的概率 RGB-D 显着性检测模型，它学习显着性图的潜在条件分布，而不是从 RGB-D 输入到单个显着性图的映射函数。

1) 生成器模型，它将输入 RGB-D 和潜在变量映射到条件预测

2) 推理模型，它推断潜在变量

在测试期间，我们可以从学习的先验分布中采样多个潜在变量以产生随机显着性预测。我们的模型在训练和测试期间的整个流程分别如图 2 (a) 和 (b) 所示。具体来说，在训练过程中，模型从“生成器模型”中学习显着性，并使用“推理模型”更新潜在变量。在测试期间，我们从潜在变量的“先验”分布中采样以获得随机显着性预测。

Generator Model

生成器模型以和潜在变量作为输入，并产生随机预测，模型结构如下图所示。

Inference Model

我们提出了两种不同的解决方案来推断或更新潜在变量：

基于 CVAE 的策略，我们通过神经网络（即编码器）近似后验分布；

基于 ABP 的策略，通过基于 Langevin Dynamics 的 MCMC 直接从的真实后验分布中采样。

Infer with CVAE

为了训练 VAE，使用重建损失和正则化器来惩罚的先验分布和近似后验分布的不一致，如下所示：

CVAE 将潜在变量的先验分布为以输入数据为条件高斯分布。

我们将输出定义为显着性预测，并将潜在变量定义为。由于我们的输出以输入 RGB-D 数据为条件，因此我们将输入定义为条件变量。

💡

即将中的全部替换为 , 然后再加上以为条件信息.

我们引入线性 KL 退火项作为 KL 损失项的权重，定义为 = 。

在训练期间，CVAE 旨在对编码误差下的条件对数似然预测进行建模。在测试过程中，我们可以从先验网络中采样以获得随机预测。

然而，训练时输出变量的条件自动编码可能不是测试时做出预测的最佳选择，因为 CVAE 在训练阶段使用的后验作为重建损失，而在测试期间使用的先验。减轻训练和测试中编码潜在变量的差异的一种解决方案是为 KL 损失项（例如，）分配更多权重。

另一种解决方案是将后验网络设置为与先验网络相同，即，我们可以在训练和测试阶段直接从先验网络中采样潜在变量 .我们称这个模型为“高斯随机神经网”（GSNN），目标函数为：

💡

通过优化来优化先验分布 . 从先验分布中采样, 中则是从后验分布中采样, 联合优化导致先验分布更接近后验分布. 两个推理模型 ( 和 ) 共享相同的结构

我们可以得到一个混合目标函数:

中的KL-divergence用来衡量和之间的分布不匹配，或者说使用去计算时丢失了多少信息表示。另一方面，GSNN 损失项 LGSNN 可以减轻训练和测试期间编码潜在变量的差异。方程式中的混合损失可以实现具有超参数的结构化输出，以平衡方程式中的两个目标函数。

Infer z with ABP

基于 CVAE 的模型的一个缺点是后验崩溃问题，其中模型学习忽略潜在变量，因此它变得独立于预测 Y，因为将简单地崩溃为 , 并且没有嵌入关于预测的信息。

ABP 不是像在 CVAE 中那样使用编码器网络来近似的后验，而是通过基于梯度的 MCMC 直接从其真实后验分布中采样。

“引入交替反向传播” 来学习生成器网络模型。它以 EM 方式更新潜在变量和网络参数。首先，给定具有当前参数集的网络预测，它通过基于 Langevin 动力学的 MCMC 推断潜在变量，他们称之为“推理反向传播”。其次，给定更新后的潜在变量，网络参数集通过梯度下降进行更新，他们称之为“学习反向传播”。按照前面的变量定义，给定训练示例，我们打算推断并学习网络参数以最小化重建误差以及对应于的先验的正则化项。

💡

这里跳过, 详细的可以去看论文