ILVR: Conditioning Method for Denoising Diffusion Probabilistic Models 论文笔记

date
Oct 30, 2022
Last edited time
Mar 27, 2023 08:45 AM
status
Published
slug
ILVR论文笔记
tags
DL
CV
summary
转,不求甚解
type
Post
Field
Plat

Abstract

DDPM 模型已经在无条件生成方面取得了显著的成就,然而,由于其生成过程的随机性,对该模型做可控生成十分具有挑战性。本文提出了一个 Iterative Latent Variable Refinement(ILVR) 来指导 DDPM 在给定 reference image 的条件下能够生成高质量的图片样本。同时,这样控制的方法可以让一个 DDPM 模型在无需额外模型或学习过程参与的情况下适用于 multi-domain image translation,editing with scribbles 等应用任务。

Introduction

关于可控生成,现如今方法可以分为两大类:一个是根据目的需求设计条件化的生成模型(conditional generative model)来达到应用要求,一个是利用预训练好的无条件生成模型,挖掘里面潜在的语义。
第一个方法通过在模型训练阶段提供条件信息来进行生成控制,在风格迁移,图像补全等任务中取得了很不错的表现。第二个方法利用高质量的预训练模型,比如 StyleGAN,BigGAN 等,通过分析模型的隐空间然后编辑语义属性来达到图像编辑的目的。
DDPM 模型是一种迭代式生成模型,其生成效果在很多 benchmark 上已经取得了 SOTA 的效果。该模型通过建模从先验分布到数据分布之间的马尔可夫链来进行生成,其样本主要依赖于初始状态和转移分布。然而,这样的生成模型很难控制,因为其转移过程的随机性,图像语义的不一致性。
本文提出了 ILVR 方法,在生成过程中的每次转移中,都引入了 reference image 的信息来微调转移,具体是通过隐变量的 matching 来进行转移,其等效于条件分布的采样,本文也提供了理论证明。最后该方法也可以应用于 multi-domain image translation 任务上,无需在多个 domain 上训练,同时也扩展了 editing with scribbles 任务。

Method

notion image
我们的目标是从条件分布里完成抽样,即 。那么根据马尔可夫链的性质,可以展开成如下:
代表一个线性的低通滤波操作,一系列的上下采样,缩放因子为 。给定一个参考图片 ,那么其对应的条件就是,确保 其物理意义是想要生成的样本和 reference image 共享语义信息,语义信息具体层次由缩放因子决定。
那么有如下公式:
其中 可以根据 SDE 的 forward 公式采样得到。在每个转移中的条件 可以被替换成一个 local 形式,即隐变量 和参考变量 共享低频内容。
通过上述公式的 matching 操作,可以保证公式 2 的等效性结论,从而做到 DDPM 模型的条件生成。
notion image
为了扩展方法至更多的应用,我们也指出了用户可以控制的一些因素和对应的性质,比如在总 step 集合的子集操作,还有选取怎么样的缩放因子来操纵。通过简单的性质容易看出,缩放因子越高其图片生成的选择空间也越大。
notion image

方法有效性的详细证明(附录):

根据 forward 过程,其去噪数据可以获得近似的一个表示形式如下:
其中 代表根据 扰动数据预估出来的噪声。
我们可以利用公式 4 来重写条件转移分布:
由于 操作的线性性质,公式可以进一步展开:

Experiment Results

notion image
notion image

© Lazurite 2021 - 2024