(CVPR2023)HOLODIFFUSION: Training a 3D Diffusion Model using 2D Images-论文阅读
date
May 30, 2023
Last edited time
May 30, 2023 05:10 AM
status
Published
slug
HOLODIFFUSION论文阅读
tags
DL
CV
DDPM
summary
初看感觉没道理 再看其实挺有道理的 感觉可以直接用到弱监督
type
Post
Field
Plat
代码还没出来 之后可以看看代码
Abstract
Diffusion模型在3D领域的应用的问题
首先,相比于2D图像,获取大量的3D训练数据更加困难。其次,将模型扩展到3D操作时,内存和计算复杂度呈现立方级增长,这使得这种扩展变得不可行。
本文提出的方法
本文提出了一种名为HOLO DIFFUSION的方法,是第一个能够处理3D数据的扩散模型。该模型可以通过仅使用2D图像进行训练来生成3D一致的图像。作者通过将2D图像映射到3D空间中来解决获取大量3D训练数据的问题,并提出一种将模型记忆与空间记忆分离的图像形成模型(非重点)。
Method
输入
问题
由于没有训练数据中的3D ground-truth feature grids ,因此无法直接应用扩散模型来构建扩散模型。为了解决这个问题,作者提出了 Bootstrapped Latent Diffusion Model,该模型可以从仅包含2D视频的训练数据中推断出特征网格 的分布 。具体来说,作者使用 auxiliary samples 来替代真实 ground-truth ,其中 使用 Warp-Conditioned-Embedding (WCE) 方法直接使用 2D image features 生成。
现在还存在一个问题 就是 和 的意义不同 所在的分布也不同 所以在 train/test的时候存在 discrepancy 下面使用 Two-pass diffusion bootstrapping 方式缓解 即训练网络既完成 的去噪, 也完成 去噪
将是下一步去噪的输入 近似于
Bootstrapped Latent Diffusion Model
- Auxiliary denoising diffusion objective
使用 来重建图像 完成监督
- Two-pass diffusion bootstrapping
Two-pass diffusion bootstrapping是 HOLO DIFFUSION 模型中用于去除训练和测试样本分布差异的一种方法。具体来说,该方法首先使用 对训练视频进行初始去噪,从而获得“干净”的体素网格。然后,对这些网格应用扩散过程,通过微调 来进行优化。
总损失为 .