Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise

date
Apr 10, 2023
Last edited time
Apr 10, 2023 11:35 AM
status
Published
slug
ColdDiffusion论文阅读
tags
DL
CV
DDPM
summary
type
Post
Field
Plat
notion image
💡
与我的之前的想法是一样的 即扩散过程可以使用广义的扩散 而不仅仅是破坏成为高斯噪声
💡
改的 Diffusion 模型也是基于 lucidrains 的 真就和我一模一样辣

Abstract

标准扩散模型涉及图像变换,添加高斯噪声和图像恢复算子以反转该退化。我们观察到扩散模型的生成行为并不强烈依赖于图像退化的选择。实际上,可以通过改变这个选择来构建整个生成模型家族。即使使用完全确定的退化,如模糊或遮蔽,扩散模型的训练和测试时间更新规则也可以轻松推广以创建生成模型。

Introduce

在这项工作中,我们研究了扩散模型在实践中是否需要高斯噪声或任何随机性。我们考虑了扩散模型的理论框架之外的广义扩散模型。与其限制在围绕高斯噪声构建的模型中,我们考虑了围绕任意图像变换(如模糊、下采样等)构建的模型。我们训练一个恢复网络,使用简单的“ 损失”来反转这些退化。在测试时,应用一系列交替进行的更新,包括图像恢复模型和图像退化操作。这种交替进行的更新产生了生成行为,并获得了逼真的图像。
这种冷扩散不需要高斯噪声(或任何随机性)。这引发了我们对扩散模型理论理解的限制的问题。此外,这也开启了潜在的新型生成模型的大门,这些模型具有与传统扩散模型非常不同的特性。

Generalized Diffusion

Model components and training

给定一个图像 ,我们使用 对其进行退化处理,表示为 。在标准扩散框架中, 添加方差与 成比例的高斯噪声。在我们的广义公式中,我们选择 执行各种其他转换,例如模糊处理、遮罩像素、下采样。
我们还需要一个恢复算子 ,它(近似地)反转 。该算子具有 的属性。在实践中,该算子是通过一个神经网络来实现的,该神经网络由 参数化。恢复网络是通过求解最小化问题 来训练的,其中 表示从分布 中随机采样的随机图像,在我们的实验中,我们采用 范数。

Sampling from the model

当恢复算子 完美时,即 对于所有 成立时,算法1会产生形式为 的精确迭代。然而,当修复算子不完美时,误差可能导致迭代 偏离 ,从而导致不准确的重建。我们发现算法1中的标准采样方法在基于噪声的扩散中效果很好,可能是因为修复算子 被训练用于纠正其输入中的误差(如随机高斯噪声)。然而,对于具有平滑/可微降解的冷扩散,例如在图2中展示的去模糊模型,算法1产生的结果很差。因此,我们提出了算法2用于采样。
notion image

Properties of Algorithm 2

notion image
假设恢复算子 的完美重建, 可以明显看出算法1和算法2都可以完美地重建出所有 。本节分析了这些算法对修复运算符误差的稳定性。
对于小的 值,算法2对修复运算符 中的误差具有很高的容错性。为了理解原因,考虑一个具有线性损坏函数 的模型问题。尽管这种方法可能看起来很严格,但请注意,任何平滑损坏 附近的泰勒展开的形式都是 ,其中 HOT 表示高阶项。请注意,这个泰勒展开的常数/零阶项为零,因为我们假设上面的降级运算符满足
我们可以看到无论选择什么 ,该算法都会产生 的值。相比之下,算法 1 并没有这种行为。当 不是 的完美反演时,。如果 不能完美地反演 ,则即使对于小的 值,也可以从算法 1 中预期出现错误。
💡
这里要求 是一个确定性操作,或者使用固定的噪声。

Generalized Diffusions with Various Transformations

Deblurring

我们提出了一种基于高斯模糊操作的广义扩散模型,其中每个步骤 产生的图像比步骤 更模糊。给定高斯核 和步骤 处的图像 ,正向过程可以写为 ,其中 表示卷积运算,使用核来模糊图像。我们通过最小化损失 来训练去模糊模型,然后使用算法 2 来反转这个模糊扩散过程。我们训练了一个 DNN 来预测清晰图像 。定性结果显示在图 3 中,定量结果显示在表 1 中。使用采样过程创建的图像比直接重建清晰图像更清晰,有时完全不同。定量上,我们观察到重建指标,如 RMSE 和 PSNR,在使用采样过程时变差,但 FID 改善。。
notion image
notion image

Cold Generation

Image generation using blur

基于噪声扩散模型的前向扩散过程具有一个优点: 步的损坏图像分布是一个各向同性的高斯分布。这个特性允许通过从各向同性高斯分布中抽样并通过反向扩散逐步去噪来进行(无条件的)生成。
当使用模糊作为退化时,完全退化的图像不形成一个可以轻松抽样的闭式分布。然而,它们形成了一个足够简单的分布,可以用简单的方法进行建模。注意,每个图像 退化为一个对于大 来说是恒定的 (即,每个像素都是相同的颜色)。此外,这个恒定值恰好是 RGB 图像 的通道均值,并且可以用一个三维向量表示。这个三维分布可以用高斯混合模型(GMM)轻松表示。GMM可以进行抽样,以产生严重模糊图像的随机像素值,可以使用冷扩散进行去模糊,从而创建一个新图像。

© Lazurite 2021 - 2024