Diffusion Model & AutoEncoder

date
Oct 4, 2023
Last edited time
Oct 4, 2023 07:25 AM
status
Published
slug
Diffusion Model & AutoEncoder
tags
DL
DDPM
summary
type
Post
Field
Plat

(NIPS2022-PDAE)Unsupervised Representation Learning from Pre-trained Diffusion Probabilistic Models

Abstract

通常情况下,由于预训练的DPMs存在正向过程信息丢失的问题,在反向过程中无法准确预测 xtx_t 的后验均值,导致其预测的后验均值与实际后验均值存在差距。这也是它们无法从潜变量 xtx_t 中重构图像 x0x_0 的原因。
从这个角度来看,分类器引导的采样方法可以解释为计算一个额外的均值偏移量来填补差距,在样本中重构失去的类别信息。这意味着差距对应于图像中丢失的信息,并且我们可以通过填补差距来重构图像。受到这个启发,我们使用一个可训练模型根据编码表示来预测一个均值偏移量,并训练它尽可能填补差距,这样编码器被迫从图像中学习更多信息来帮助填补。通过重用预训练DPMs的一部分网络并重新设计扩散损失的加权方案,PDAE可以高效地从图像中学习有意义的表示。

Method

Forward Process Posterior Mean Gap

通常情况下,人们通过学习无条件和有条件的DPMs来近似相同的前向过程后验。无条件的DPMs通过学习pθ(xt1xt)=N(xt1;μθ(xt,t),Σθ(xt,t))p_θ(x_{t−1}|x_t) = N (x_{t−1}; μ_θ(x_t, t), Σ_θ(x_t, t))来训练,有条件的DPMs通过学习pθ(xt1xt,y)=N(xt1;μθ(xt,y,t),Σθ(xt,y,t))p_θ(x_{t−1}|x_t, y) = N (x_{t−1}; μ_θ(x_t, y, t), Σ_θ(x_t, y, t))来训练。其中,yy 代表某些条件,包含了与相应的 x0x_0 相关的一些先前知识,如类标签。
假设在相同的实验设置下,将 ΣθΣ_θ 都设置为未训练的时间相关常数,那么有条件的DPMs将达到更低的优化扩散损失。实验结果在图1中证明了这一事实,即 μθ(xt,y,t)μ_θ(x_t, y, t)μθ(xt,t)μ_θ(x_t, t)更接近μ~t(xt,x0)\tilde μ_t(x_t, x_0)
实质上,这个后验均值差是由于前向过程信息丢失导致的,因此仅通过xt1x_{t−1}无法恢复。然而,如果我们为DPMs引入一些关于x0x_0的知识,如yy,那么这个差距将变小。yy 所包含的x0x_0 的信息越多,这个差距就越小。
 
条件采样的扩散模型公式如下:
ϵθ(xt,t)=ϵθ(xt,t)1αˉtxtlogpϕ(yxt)\epsilon_{\theta}(x_t, t) = \epsilon_{\theta}(x_t, t) - \sqrt{1 - \bar{\alpha}_t} \cdot \nabla x_t \log p_{\phi}(y|x_t)
我们在这里训练一个梯度估计器 Gψ(xt,z,t)G_\psi(x_t, z, t) 来模拟 xtlogp(zxt)\nabla_{x_t} \log p(z|x_t)。通过使用预训练的DPM,我们可以组装一个条件DPM: pθ,ψ(xt1xt,z)=N(xt1;μθ(xt,t)+Σθ(xt,t)Gψ(xt,z,t),Σθ(xt,t))p_{\theta,\psi}(x_{t-1}|x_t, z) = \mathcal{N}(x_{t-1}; \mu_{\theta}(x_t, t) + \Sigma_{\theta}(x_t, t) \cdot G_{\psi}(x_t, z, t), \Sigma_{\theta}(x_t, t)) 作为解码器。在训练完毕的 Gψ(xt,z,t)G_{\psi}(x_t, z, t) 之后,我们可以将其视为最优分类器 p(zxt)p(z|x_t) 的得分,并根据预训练的 ϵθ(xt,t)\epsilon_{\theta}(x_t, t),使用分类器引导采样方法进行DDPM采样。
notion image
notion image
最后,我们可以选择使用随机初始化的 xTx_T 或者使用 DDIM 进行前向计算得到的 xTx_T 来进行反向操作。这一步骤虽然是可选的,但在使用 DDIM 进行采样时,通过接近精确的重建和真实图像操作,可以更好地重建输入图像的细微细节。

Experiments

notion image
notion image
notion image
 
 

(ICLR2023Oral-DDAE)Denoising Diffusion Autoencoders are Unified Self-supervised Learners

受到最近扩散模型的发展启发,本研究探讨了这些模型是否能通过生成预训练来获得用于分类的有区别的表示。实验证明,扩散模型中的网络,即去噪扩散自编码器(DDAE),是一种统一的自监督学习器。通过对无条件图像生成进行预训练,DDAE已经在其中间层学到了强线性可分的表示。与辅助编码器不同,扩散预训练成为一种生成和判别双重学习的通用方法。
通过测量中间激活的线性探测和微调准确性,我们评估了扩散预训练网络,即去噪扩散自编码器(DDAE),作为特征提取器。对于线性探测,我们将带有特定尺度(或时间步长)的带噪图像传递给DDAE,并检查不同层的激活情况。对于微调,我们将DDAE截断到最佳表示层作为图像编码器,并进行无附加噪声的微调。
notion image
我们通过端到端的扩散预训练验证了DDAE能够获得具有强线性可区分特征的特征。这些特征位于上采样的中间位置,只有在图像受到噪声干扰时才能被提取出来。
notion image
notion image
notion image
 
notion image

(CVPR2022Oral-DiffAE)Diffusion Autoencoders: Toward a Meaningful and Decodable Representation


© Lazurite 2021 - 2025