simple diffusion: End-to-end diffusion for high resolution images 论文阅读

date

Mar 2, 2023

Last edited time

Mar 27, 2023 08:29 AM

status

Published

slug

simple_diffusion论文阅读

Abstract

Problem

目前，在高分辨率图像的像素空间中应用扩散模型仍存在困难。相反，现有的方法专注于在较低维度空间中进行扩散（Latent Diffusion），或者采用多级超分辨率生成（Cascaded Diffusion）。但这些方法的缺点是会给扩散框架增加额外的复杂度。

该论文旨在在尽可能保持模型简单的同时，改进高分辨率图像的去噪扩散模型。

Method

针对高分辨率图像应调整 noise schedule，随着分辨率的增加添加更多噪声。

在 16×16 分辨率上缩放 U-Net 架构足以提高性能。更进一步的是 U-ViT 架构，一个带有变压器主干的 U-Net。

在架构的特定位置添加 dropout。

使用降采样避免高分辨率特征图。

Background

Diffusion Models - 扩散模型

2022.10.15@更新了一点, 发现还是得看的 QAQ 2022.10.20@继续更新了一点 2022.10.26@添加了LDM

https://lazurite.vercel.app/Diffusion%20Models%20-%20%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B

Simple Diffusion

Adjusting Noise Schedules

最常见的 noise schedule 是 α-cosine schedule，它假定方差保持不变，相应的标准差为。这个 noise schedule 最初是为了提高在CIFAR10（分辨率为32×32）和ImageNet（分辨率为64×64）上的性能而提出的。

对于 α-cosine schedule 而言，图像的整体结构在很长的一段时间内已经大致确定了。这是有问题的，因为生成的去噪过程只有很小的时间窗口来决定图像的整体结构。

💡

Given an input image the diffusion distribution for pixel is given by . Suppose we average pool , , we find that . The lower resolution pixel only has half the amount of noise.

One can further derive that the αt to σt ratio at this lower resolution is twice as high, meaning that the signal to noise ratio is as high. And so .

总之，对于一个大小为的窗口求平均后，将增加倍（信噪比将增加倍）。因此，我们认为 noise schedule 可以相对于某个参考分辨率进行定义，比如或，这些时间表最初是针对这些分辨率设计和成功测试的。在我们的方法中，首先选择一个参考分辨率，例如，

在参考分辨率下，我们定义了 noise schedule ，它又定义了全分辨率下所需的 SNR：

例如，图像的 noise schedule 方程为：

Interpolating schedules

将 noise schedule 修改的一个潜在缺点是，由于每个像素的噪声增加了，高频细节现在要在扩散过程的后期生成。然而，我们假设可以在几个扩散步骤内生成高频细节。或者，可以在不同的位移时间表之间进行插值。例如，对于512的分辨率，可以通过从32开始，在对数空间内插值到256来包含更高频的细节。对数信噪比插值（32→256）的 noise schedule 如下：

它对低频、中频和高频细节具有更均等的权重。