(CVPR2023)HOLODIFFUSION: Training a 3D Diffusion Model using 2D Images-论文阅读

date

May 30, 2023

Last edited time

May 30, 2023 05:10 AM

status

Published

slug

HOLODIFFUSION论文阅读

tags

DDPM

summary

初看感觉没道理再看其实挺有道理的感觉可以直接用到弱监督

type

Post

origin

https://www.notion.so/lazurite/CVPR2023-HOLODIFFUSION-Training-a-3D-Diffusion-Model-using-2D-Images-111fe0536c2e4d67b4bf555d45a6250a?pvs=4

Field

Plat

HoloDiffusion: Training a 3D Diffusion Model using 2D Images

Diffusion models have emerged as the best approach for generative modeling of 2D images. Part of their success is due to the possibility of training them on millions if not billions of images with...

https://arxiv.org/abs/2303.16509

Karnewar et al. - 2023 - HoloDiffusion Training a 3D Diffusion Model using.pdf

48086.0KB

holo_diffusion_fullres.pdf

4502.2KB

HoloDiffusion: Training a 3D Diffusion Model using 2D Images

With HoloDiffusion, we propose the first true 3D diffusion based unconditional generative model which is trained without having access to any ground truth 3D data. We train the model using only posed-image supervision.

https://holodiffusion.github.io/

💡

代码还没出来之后可以看看代码

Abstract Method 输入问题 Bootstrapped Latent Diffusion Model Experiments

Abstract

Diffusion模型在3D领域的应用的问题

首先，相比于2D图像，获取大量的3D训练数据更加困难。其次，将模型扩展到3D操作时，内存和计算复杂度呈现立方级增长，这使得这种扩展变得不可行。

本文提出的方法

本文提出了一种名为HOLO DIFFUSION的方法，是第一个能够处理3D数据的扩散模型。该模型可以通过仅使用2D图像进行训练来生成3D一致的图像。作者通过将2D图像映射到3D空间中来解决获取大量3D训练数据的问题~~，并提出一种将模型记忆与空间记忆分离的图像形成模型(非重点)。~~

Method

输入

问题

由于没有训练数据中的3D ground-truth feature grids ，因此无法直接应用扩散模型来构建扩散模型。为了解决这个问题，作者提出了 Bootstrapped Latent Diffusion Model，该模型可以从仅包含2D视频的训练数据中推断出特征网格的分布。具体来说，作者使用 auxiliary samples 来替代真实 ground-truth ，其中使用 Warp-Conditioned-Embedding (WCE) 方法直接使用 2D image features 生成。

💡

现在还存在一个问题就是和的意义不同所在的分布也不同所以在 train/test的时候存在 discrepancy 下面使用 Two-pass diffusion bootstrapping 方式缓解即训练网络既完成的去噪, 也完成去噪将是下一步去噪的输入近似于

Bootstrapped Latent Diffusion Model

Auxiliary denoising diffusion objective

使用来重建图像完成监督

Two-pass diffusion bootstrapping

Two-pass diffusion bootstrapping是 HOLO DIFFUSION 模型中用于去除训练和测试样本分布差异的一种方法。具体来说，该方法首先使用对训练视频进行初始去噪，从而获得“干净”的体素网格。然后，对这些网格应用扩散过程，通过微调来进行优化。

总损失为 .