Source-free Depth for Object Pop-out 论文阅读

date
Mar 16, 2023
Last edited time
Mar 27, 2023 08:24 AM
status
Published
slug
Source-free_Depth_for_Object_Pop-out论文阅读
tags
DL
CV
summary
使用预训练深度估计器 DA 到 C/SOD 任务. 效果一般, 把输入图像大小 352 → 512 来大力出奇迹
type
Post
Field
Plat
💡
使用预训练深度估计器 DA 到 C/SOD 任务. 效果一般, 把输入图像大小 352 → 512 来大力出奇迹

Abstract

  • 问题
    • 深度线索被认为对视觉感知非常有用。然而,直接测量深度通常是不切实际的。不幸的是,由于跨领域的泛化不足,预训练的深度学习模型可能无法提供高质量的深度图。
  • 方法
    • 在这项工作中,我们使用3D中对象的“pop-out”先验,对此类深度推断模型进行了域适应,以进行对象分割。 "pop-out"是一个简单的组合先验,它假定对象位于背景表面上。这样的组合先验使我们可以在3D空间中推理对象。
      notion image
notion image

Method

notion image
  1. 输入图像 被馈送到一个冻结权重的深度网络中,以生成无源深度
  1. 多模态图像 () 一起馈送到深度弹出网络中,计算中间的弹出深度
  1. 这个中间表示以及RGB图像 后来被分割网络处理,并转换为接触表面 和语义预测

Source-free Depth Network

我们选择最先进的DPT模型作为我们的无源深度网络,其权重已被冻结。为了获得最高质量的深度图,我们使用DPT和提升方法共同增强局部细节。
尽管基于学习的方法可以取得可信的结果,但由于领域差距,获得的无源深度不总是提供高质量的几何线索。因此,我们利用几何和语义先验知识来共同微调无源深度。

Object Popping Network

notion image
网络架构:我们构建了一个 popping 网络来细化/平滑无源深度。该 popping 网络采用编码器-解码器的设计,带有跳跃连接,如图 4 所示。我们简单地在输入端连接 RGB 和无源深度,形成一个 4 通道输入,并将它们馈送到 popping 网络中。
  • Structure Preserving
    • 由于我们的目标是检测、保留和提取中间表示中的对象结构,因此我们只利用结构相似性进行监督。我们使用以下 SSIM 损失进行结构相似性的度量。
  • Local Depth Smoothing
    • 我们假设对象的结构应该与背景区分开来,即它在对象区域内应该是平滑的,而在边界像素上应该是清晰的。因此,利用弱语义线索和几何先验来指导局部平滑性损失。具体来说,我们首先引入局部平滑性损失。局部性由Ground Truth 。我们通过元素乘法屏蔽背景像素以通过 抑制非活动区域。 是Sobel运算。然后,我们的局部损失 表示为:
      其中 代表法线向量, 代表对象区域内的像素, 表示像素 的邻居像素集合,cosine 是两个向量之间的余弦相似度。这样,我们的 local loss 只在对象区域内起作用,使目标区域内的对象结构保持一致。应用局部平滑性损失可以降低对象层面上的深度噪声。
  • Depth Edge Sharpening
    • 边缘锐化损失被公式化为像素的加权总变化。为此,我们首先计算任意像素 处的边缘感知权重
      是一个预定义的非零权重,而 则是用于边界像素的额外权重。在我们的设置中,我们选择 为边界像素数量的归一化值(除以图像大小),并将 设为0.5。对于总变差,我们采用平方形式,以使大的梯度起到更重要的作用。我们的加权总变差损失如下所示:
      我们的加权函数依赖于语义边界,而不是常用的图像梯度。我们之所以使用语义边界而不是图像梯度的动机,是因为我们有兴趣在具有挑战性的条件下进行目标检测,例如伪装目标。在这种情况下,图像梯度可能会导致误导性的权重。
  • Total Loss
    •  

Segmentation with Contact Surface

notion image
为了进一步增加目标与背景之间的距离,使目标结构更加突出,我们使用了一个RGB-D分割网络,如图5所示。我们的分割网络的主要组件是一个三流RGB-D网络。在我们的设置中,我们选择[91]作为我们的基准线,因为它是SOTA RGB-D方法之一,用于显著性检测。我们另外添加了一个 Surface Head 来学习接触表面的深度
💡
[91] Tao Zhou, Huazhu Fu, Geng Chen, Yi Zhou, Deng-Ping Fan, and Ling Shao. Specificity-preserving RGB-D saliency detection. In IEEE ICCV

Object Separation

我们可以获得两个特征图:

Overall Loss Function

Experiments

Result

notion image
notion image
notion image

Ablation Study

notion image
notion image

© Lazurite 2021 - 2024