Uncertainty Inspired RGB-D Saliency Detection 论文阅读
date
Dec 3, 2022
Last edited time
Mar 27, 2023 08:40 AM
status
Published
slug
Uncertainty_Inspired_RGB-D_Saliency_Detection论文阅读
tags
DL
CV
summary
type
Post
Field
Plat
Abstract
- 问题
现有的 RGB-D 显着性检测模型通过根据确定性学习 Pipeline 来预测单个显着性图,将此任务视为点估计问题。然而,视觉显着性检测在一定程度上具有主观性。每个人在标记显着图时都可以有特定的偏好。更准确地说,GT 标记过程从来都不是确定性过程,显着的前景对于一个注释者,可能会被其他注释者定义为背景。
我们感兴趣的不是执行点估计,而是网络如何通过生成的不同显着图实现分布估计,捕捉人类注释的不确定性。
- 解决方案
我们提出了一种生成架构来实现概率性 RGB-D 显着性检测,其中潜在变量 对注释中的人类不确定性进行建模。
我们的框架包括两个主要模型:1) 生成器(即编码器-解码器)模型,它将输入的 RGB-D 数据和潜在变量映射到随机显着性预测,以及 2) 推理模型,通过从真实或近似后验分布中采样来逐渐更新潜在变量。
Method
我们提出了我们的概率 RGB-D 显着性检测模型,它学习显着性图的潜在条件分布,而不是从 RGB-D 输入到单个显着性图的映射函数。
1) 生成器模型,它将输入 RGB-D 和潜在变量 映射到条件预测
2) 推理模型,它推断潜在变量
在测试期间,我们可以从学习的先验分布 中采样多个潜在变量以产生随机显着性预测。我们的模型在训练和测试期间的整个流程分别如图 2 (a) 和 (b) 所示。具体来说,在训练过程中,模型从“生成器模型”中学习显着性,并使用“推理模型”更新潜在变量。在测试期间,我们从潜在变量的“先验”分布中采样以获得随机显着性预测。
Generator Model
生成器模型以 和潜在变量 作为输入,并产生随机预测 ,模型结构如下图所示。
Inference Model
我们提出了两种不同的解决方案来推断或更新潜在变量 :
- 基于 CVAE 的策略,我们通过神经网络(即编码器)近似后验分布;
- 基于 ABP 的策略,通过基于 Langevin Dynamics 的 MCMC 直接从 的真实后验分布中采样。
Infer with CVAE
为了训练 VAE,使用重建损失和正则化器来惩罚 的先验分布和近似后验分布的不一致,如下所示:
CVAE 将潜在变量 的先验分布为以输入数据 为条件高斯分布。
我们将输出定义为显着性预测 ,并将潜在变量定义为 。由于我们的输出 以输入 RGB-D 数据 为条件,因此我们将输入 定义为条件变量。
即将 中的 全部替换为 , 然后再加上以 为条件信息.
我们引入线性 KL 退火项 作为 KL 损失项 的权重,定义为 = 。
在训练期间,CVAE 旨在对编码误差 下的条件对数似然预测进行建模。在测试过程中,我们可以从先验网络 中采样以获得随机预测。
然而,训练时输出变量的条件自动编码可能不是测试时做出预测的最佳选择,因为 CVAE 在训练阶段使用 的后验作为重建损失,而在测试期间使用 的先验。减轻训练和测试中编码潜在变量的差异的一种解决方案是为 KL 损失项(例如,)分配更多权重。
另一种解决方案是将后验网络设置为与先验网络相同,即 ,我们可以在训练和测试阶段直接从先验网络中采样潜在变量 .我们称这个模型为“高斯随机神经网”(GSNN),目标函数为:
通过优化 来优化先验分布 . 从先验分布中采样, 中则是从后验分布中采样, 联合优化导致先验分布更接近后验分布. 两个推理模型 ( 和 ) 共享相同的结构
我们可以得到一个混合目标函数:
中的KL-divergence用来衡量 和 之间的分布不匹配,或者说使用 去计算时丢失了多少信息表示 。另一方面,GSNN 损失项 LGSNN 可以减轻训练和测试期间编码潜在变量的差异。方程式中的混合损失可以实现具有超参数 的结构化输出,以平衡方程式中的两个目标函数。
Infer z with ABP
基于 CVAE 的模型的一个缺点是后验崩溃问题,其中模型学习忽略潜在变量,因此它变得独立于预测 Y,因为 将简单地崩溃为 , 并且 没有嵌入关于预测的信息。
ABP 不是像在 CVAE 中那样使用编码器网络来近似 的后验,而是通过基于梯度的 MCMC 直接从其真实后验分布中采样 。
“引入交替反向传播” 来学习生成器网络模型。它以 EM 方式更新潜在变量和网络参数。首先,给定具有当前参数集的网络预测,它通过基于 Langevin 动力学的 MCMC 推断潜在变量,他们称之为“推理反向传播”。其次,给定更新后的潜在变量,网络参数集通过梯度下降进行更新,他们称之为“学习反向传播”。按照前面的变量定义,给定训练示例 ,我们打算推断 并学习网络参数 以最小化重建误差以及对应于 的先验的正则化项。
这里跳过, 详细的可以去看论文
Output Estimation
我们设计了一个随机学习管道来获得预测的条件分布,这使得可以执行与准备训练数据类似的策略来生成用于性能评估的确定性预测。
我们从 PriorNet(对于基于 CVAE 的推理模型)中采样 或直接从标准高斯分布 中采样 ,并将其提供给“生成器模型”以生成随机显着性预测.
给定三个预测(以蓝色显示),我们执行自适应阈值处理以获得三个不同的二进制预测(以橙色显示)。然后我们计算一个多数矩阵(以紫色表示),它也是二进制的,每个像素代表特定坐标的多数预测。最后,在显着性共识模块之后,我们最终的灰度预测是根据一致同意的那些像素的平均值计算的。
Loss funtion
为了进一步突出预测的结构准确性,我们基于显着对象内部的像素应具有相似的显着值并且沿对象边缘发生明显区别的假设引入平滑度损失。
我们采用平滑度损失来实现类内高相似性的显着图,在显着对象内部具有一致的显着性预测,并且沿对象边缘发生区分。
其中, , 是位置 处的预测显着性图, 是图像强度, 是 和 方向上偏导数的索引。
CVAE Inference Model based Loss Function