(CVPR2023)Diffusion-SDF: Text-to-Shape via Voxelized Diffusion
date
Jun 4, 2023
Last edited time
Jun 4, 2023 08:20 AM
status
Published
slug
Diffusion-SDF论文阅读
tags
DL
DDPM
3D
summary
type
Post
Field
Plat
没什么意思
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F7690c540-edef-45d0-aec6-c80642e7cd6f%2FUntitled.png?table=block&id=888ec744-805a-4891-bd53-37b242cd8d27&cache=v2)
本文介绍了一种名为Diffusion-SDF的文本到形状合成方法,能够根据文本输入生成、完成和修改3D形状。以前的方法在 3D 数据表示和形状生成方面都缺乏灵活性,因此无法生成符合给定文本描述的高度多样化的 3D 形状。
为了解决这个问题,我们提出了一个 SDF 自动编码器和体素化扩散模型来学习和生成 3D 形状的体素化符号距离场 (SDF) 的表示。具体来说,我们设计了一种新颖的 UinU-Net 架构,该架构在标准 U-Net 架构中植入了一个以局部为中心的内部网络,从而可以更好地重建与补丁无关的 SDF 表示。
在本文中,我们提出了基于截断符号距离场 (TSDF) 的文本到形状合成的 Diffusion-SDF 框架。考虑到 3D 形状在局部尺度上具有结构相似性,并且 3D 体素的立方数据量可能导致扩散模型的采样速度较慢,我们提出了一个两阶段分离的生成管道。
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F5c0f6701-80d7-4ccd-93ef-b04c8c861f8a%2FUntitled.png?table=block&id=bbfaa03a-039a-498e-a180-08ff149f5186&cache=v2)
第一阶段是基于补丁的SDF自编码器,将原始的有符号距离场映射为独立于补丁的局部高斯潜在表示。这个阶段的目标是提取局部特征并减少数据量。
第二阶段是体素扩散模型,它捕捉了补丁内部信息以及补丁之间和全局之间的关系。该模型使用U-Net去噪器生成独立于补丁的SDF表示。UinU-Net 在外部 U-Net 骨干网中植入了一个以局部为中心的内部网络,它考虑了 SDF 表示的独立于补丁的先验,以更好地从噪声中重建局部补丁特征。
通过这两个阶段,Diffusion-SDF模型能够根据文本输入生成高质量、多样化的3D形状,并在文本引导下完成和修改3D形状。
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2Faf326bb7-1d00-4365-a850-14816f026184%2FUntitled.png?table=block&id=87b65d58-241a-4302-9284-7b8c615ae429&cache=v2)
Exp
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2Fe563ef85-0fc7-44a0-bb8f-d33be7263794%2FUntitled.png?table=block&id=59429941-79ed-43f4-b6aa-ab405c7d4bb0&cache=v2)
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2Fb5dca6e2-02ab-4d84-886b-99394fc2a601%2FUntitled.png?table=block&id=39caa041-b96c-4da4-aec0-8f71ed3c8c8d&cache=v2)