Application of DDPM in Downstream Tasks

date

Nov 5, 2022

Last edited time

Mar 27, 2023 08:43 AM

status

Published

slug

Application_of_DDPM_in_Downstream_Tasks

Survey

Diffusion Models: A Comprehensive Survey of Methods and Applications

Diffusion models have emerged as a powerful new family of deep generative models with record-breaking performance in many applications, including image synthesis, video generation, and molecule design. In this survey, we provide an overview of the rapidly expanding body of work on diffusion models, categorizing the research into three key areas: efficient sampling, improved likelihood estimation, and handling data with special structures.

https://arxiv.org/abs/2209.00796

2209.00796.pdf

9728.2KB

我们根据任务将这些应用分为六个不同的类别：计算机视觉、自然语言处理、时间数据建模、多模态学习、鲁棒学习和跨学科应用程序。

Computer Vision

Super Resolution, Inpainting, and Translation

Image super-resolution aims to restore high-resolution images from low-resolution inputs, while image inpainting revolves around reconstructing missing or damaged regions in an image.

Segmentation

Generative pre-training can enhance the label utilization of semantic segmentation models, and recent work has shown that representations learned through DDPM contain high-level semantic information that is useful for segmentation tasks. Label-Efficient Semantic Segmentation with Diffusion Models And

Label-Efficient Semantic Segmentation with Diffusion Models

Denoising diffusion probabilistic models have recently received much research attention since they outperform alternative approaches, such as GANs, and currently provide state-of-the-art generative performance. The superior performance of diffusion models has made them an appealing tool in several applications, including inpainting, super-resolution, and semantic editing.

https://arxiv.org/abs/2112.03126

2112.03126.pdf

8228.1KB

GitHub - yandex-research/ddpm-segmentation: Label-Efficient Semantic Segmentation with Diffusion Models (ICLR'2022)

Official implementation of the paper Label-Efficient Semantic Segmentation with Diffusion Models This code is based on datasetGAN and guided-diffusion. Note: use --recurse-submodules when clone. The paper investigates the representations learned by the state-of-the-art DDPMs and shows that they capture high-level semantic information valuable for downstream vision tasks.

https://github.com/yandex-research/ddpm-segmentation

使用原始图片加上噪声，生成扩散第步的图像。

DDPM 模型近似扩散的反向过程：

其中，我们并不直接使用网络，而是使用，因为与满足下式：

然后，将这个网络中几个特征层送入 MLP 分类器，对该点位置的像素进行分类。

Experiment

作者对比了使用不同扩散步骤的送入U-Net ，使用其中的不同特征层送入分类器，得到最后的 mIoU 曲线。实验得出：U-Net 解码器中间的层产生的特征似乎是所有扩散步骤中信息量最大的。

上图显示了使用 FFHQ 数据集从扩散步骤 {50,200,400,600,800} 上的块 {6,8,10,12} 中提取的特征形成的 k-means 聚类（k=5）。

在块 B=6 中，特征对应于粗略的语义掩码。在 B=12 的特征可以区分细粒度的面部部分，但对粗碎片的语义意义较小。

在不同的扩散步骤中，最有意义的特征对应于后面的特征。我们将此行为归因于这样一个事实，即在反向过程的早期步骤中，DDPM 样本的全局结构尚未出现，因此，在此阶段几乎不可能预测分割掩码。上图中的掩码证实了这种直觉。对于，掩码很难反映实际图像的内容，而对于较小的值的掩码能够反应图像的语义。

SegDiff: Image Segmentation with Diffusion Probabilistic Models

Diffusion Probabilistic Methods are employed for state-of-the-art image generation. In this work, we present a method for extending such models for performing image segmentation. The method learns end-to-end, without relying on a pre-trained backbone. The information in the input image and in the current estimation of the segmentation map is merged by summing the output of two encoders.

https://arxiv.org/abs/2112.00390

2112.00390.pdf

5082.9KB

其中，为条件图像，为的 Encoder，为Encoder，Decoder 结构。

使用原始图像做 guidance, 生成最后的分割图。Condition DDPM 结构是一种 classifier free 的方式。

Diffusion Models for Implicit Image Segmentation Ensembles(与SegDiff一致)

Diffusion Models for Implicit Image Segmentation Ensembles

Diffusion models have shown impressive performance for generative modelling of images. In this paper, we present a novel semantic segmentation method based on diffusion models. By modifying the training and sampling scheme, we show that diffusion models can perform lesion segmentation of medical images.

https://arxiv.org/abs/2112.03145

2112.03145.pdf

1624.3KB

GitHub - JuliaWolleb/Diffusion-based-Segmentation: This is the official Pytorch implementation of the paper "Diffusion Models for Implicit Image Segmentation Ensembles".

We provide the official Pytorch implementation of the paper Diffusion Models for Implicit Image Segmentation Ensembles by Julia Wolleb, Robin Sandkühler, Florentin Bieder, Philippe Valmaggia, and Philippe C. Cattin. The implementation of Denoising Diffusion Probabilistic Models presented in the paper is based on openai/improved-diffusion. Diffusion models have shown impressive performance for generative modelling of images.

https://github.com/JuliaWolleb/Diffusion-based-Segmentation

与 SegDiff 一致，都是使用原始图像做 guidance, 生成最后的分割图。

Remote Sensing Change Detection using Denoising Diffusion Probabilistic Models

DDPM-CD: Remote Sensing Change Detection using Denoising Diffusion Probabilistic Models

Human civilization has an increasingly powerful influence on the earth system, and earth observations are an invaluable tool for assessing and mitigating the negative impacts. To this end, observing precisely defined changes on Earth's surface is essential, and we propose an effective way to achieve this goal.

https://arxiv.org/abs/2206.11892

2206.11892.pdf

11975.6KB

使用DDPM的网络中 Decoder 各层的特征作为 Change Detection 分割头的输入。

DIFFUSION ADVERSARIAL REPRESENTATION LEARNING FOR SELF-SUPERVISED VESSEL SEGMENTATION(使用DDPM预测前景)

Diffusion Adversarial Representation Learning for Self-supervised Vessel Segmentation

Vessel segmentation in medical images is one of the important tasks in the diagnosis of vascular diseases and therapy planning. Although learning-based segmentation approaches have been extensively studied, a large amount of ground-truth labels are required in supervised methods and confusing background structures make neural networks hard to segment vessels in an unsupervised manner.

https://arxiv.org/abs/2209.14566

2209.14566.pdf

7433.2KB

Diffusion Adversarial Representation Learning for Self-supervised Vessel Segmentation-ReadPaper论文阅读平台

Vessel segmentation in medical images is one of the important tasks in thediagnosis of vascular diseases and therapy planning. Although learning-basedsegmentation approaches have been extensively studied, a large amount ofground-truth labels are required in supervised methods and confusing backgroundstructures make neural networks hard to segment vessels in an unsupervisedmanner.

https://readpaper.com/paper/4673376674763522049

Diffusion Adversarial Representation Learning for Self-supervised Vessel Segmentation-ReadPaper论文阅读平台

我们引入一种新的扩散对抗表示学习(DARL)模型，该模型利用对抗学习的去噪扩散概率模型，并将其应用于血管分割。我们的模型由一个扩散模块和一个生成模块组成，该模块通过对抗学习，在没有 GT 标签的情况下学习血管的语义信息。

我们设计了一个可切换的SPADE版本作为生成模块，也就是说A路与B路的生成模块是不一致的，A路没有SPADE操作。

(A)当给出真实的血管造影图像时，我们的模型不使用SPADE估计血管分割掩模;(B)当背景图像给定时，我们的模型使用SPADE生成合成血管造影，该合成血管造影是将等伪血管掩模与输入背景合成而成。同时，我们将生成的血管影像输入到(A)路径中，利用合成血管影像的分割结果与输入的假血管掩码之间的循环一致性来获取血管的语义信息。训练的流程如下：

💡

ICCV2021：Self-Supervised Vessel Segmentation via Adversarial Learning

openaccess.thecvf.com

https://openaccess.thecvf.com/content/ICCV2021/papers/Ma_Self-Supervised_Vessel_Segmentation_via_Adversarial_Learning_ICCV_2021_paper.pdf

为什么使用扩散模型？

由于扩散模块学习背景分布，因此将血管造影的前景血管结构视为离群噪声，那么 Diffusion module 预测的噪声就是血管特征，这使得生成模块能够有效地分割血管。

Image Synthesis

Semantic Image Synthesis via Diffusion Models

Denoising Diffusion Probabilistic Models (DDPMs) have achieved remarkable success in various image generation tasks compared with Generative Adversarial Nets (GANs). Recent work on semantic image synthesis mainly follows the \emph{de facto} GAN-based approaches, which may lead to unsatisfactory quality or diversity of generated images.

https://arxiv.org/abs/2207.00050

2207.00050.pdf

4805.0KB

Condition DDPM 结构基于 Classifier-Free Diffusion Guidance：

Classifier-Free Diffusion Guidance

Classifier guidance is a recently introduced method to trade off mode coverage and sample fidelity in conditional diffusion models post training, in the same spirit as low temperature sampling or truncation in other types of generative models.

https://arxiv.org/abs/2207.12598

Diffusion Models - 扩散模型

在没有独立分类器的情况下，仍然可以通过纳入条件性扩散模型和非条件性扩散模型的分数来运行条件性扩散步骤（Ho & Salimans, 2021），即使用有条件以及无条件的样本输入扩散模型来引导训练。让无条件去噪扩散模型通过分数估计器进行参数化，条件模型通过进行参数化。这两个模型可以通过一个神经网络来学习。准确地说，条件扩散模型是在成对的数据上训练的，其中条件信息被周期性地随机丢弃，以便模型也知道如何无条件地生成图像，即。隐性分类器的梯度可以用条件性和非条件性分数估计器来表示。一旦插入分类器引导的修正分数，该分数就不包含对单独分类器的依赖性。由那么，由 Classifier Guided Diffusion 中的噪声预测：他们的实验表明，无分类器引导可以在FID（区分合成和生成的图像）和IS（质量和多样性）之间实现良好的平衡。导向扩散模型GLIDE（Nichol, Dhariwal & Ramesh, et al. 2022）探索了两种引导策略，即CLIP引导和无分类器引导，发现后者更受欢迎。他们假设，这是因为CLIP引导利用了具有对抗性的例子向CLIP模型，而不是优化更好的匹配图像生成。

https://rapisurazuri-dns.tk/Diffusion%20Models%20-%20%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B#2b04417f294344979dcaa8c28affdac3

UNet 结构修改

训练与推理流程

Anomaly Detection

生成模型已经被证明拥有异常检测的强大机制，对正常或健康的参考数据进行建模。AnoDDPM 利用DDPM来破坏输入图像并重建一个健康的图像近似值。这些方法可能比基于对抗性训练的替代品表现得更好，因为它们可以通过有效的采样和稳定的训练方案更好地模拟较小的数据集。DDPM-CD通过DDPM将大量无监督的遥感图像纳入训练过程。通过利用预先训练的DDPM和应用扩散模型解码器的多尺度表示，检测遥感图像的变化。

AnoDDPM: Anomaly Detection with Denoising Diffusion Probabilistic Models using Simplex Noise

openaccess.thecvf.com

https://openaccess.thecvf.com/content/CVPR2022W/NTIRE/papers/Wyatt_AnoDDPM_Anomaly_Detection_With_Denoising_Diffusion_Probabilistic_Models_Using_Simplex_CVPRW_2022_paper.pdf

Wyatt_AnoDDPM_Anomaly_Detection_With_Denoising_Diffusion_Probabilistic_Models_Using_Simplex_CVPRW_2022_paper.pdf

8313.4KB

AnoDDPM: Anomaly Detection with Denoising Diffusion Probabilistic Models using Simplex Noise-ReadPaper论文阅读平台

Generative models have been shown to provide a powerful mechanism for anomaly detection by learning to model healthy or normal reference data which can subsequently be used as a baseline for scoring anomalies. In this work we consider denoising diffusion probabilistic models (DDPMs) for unsupervised anomaly detection.

https://readpaper.com/paper/730206939848937472

AnoDDPM: Anomaly Detection with Denoising Diffusion Probabilistic Models using Simplex Noise-ReadPaper论文阅读平台

GitHub - Julian-Wyatt/AnoDDPM: CVPR Workshop paper - AnoDDPM: Anomaly Detection with Denoising Diffusion Probabilistic Models using Simplex Noise

This is the github repository for an anomaly detection approach utilising DDPMs with simplex noise implemented in pytorch. The code was written by Julian Wyatt and is based off the Guided Diffusion Repo and a fork of a python simplex noise library.

https://github.com/Julian-Wyatt/AnoDDPM

Abstract

我们使用去噪扩散概率模型(DDPMs)用于无监督异常检测，与生成对抗网络(GANs)相比，ddpm具有更好的模式覆盖和更高的样本质量。然而，这是以较差的可拓展性和由于所需的长马尔可夫链而导致的长采样时间为代价。在基于重构的异常检测中，不需要全长马尔可夫链扩散。这使得我们开发了一种新的局部扩散异常检测策略，可扩展到高分辨率图像，称为AnoDDPM。另外，高斯扩散无法修复较大的异常;因此，我们开发了一个多尺度 Simplex noise diffusion 过程，可以解决更大的异常目标。

其思想就是

Background

一些无监督的异常检测方法，使用了 GAN、VAE 等生成模型，模型在正常的样本当中训练，使得模型学会从异常数据中生成非异常(健康)图像。然后通过在像素空间中比较生成的图像和原始图像来检测异常。

这篇文章则采用 DDPMs 模型，该方法利用ddpm对异常图像进行损坏并重建到正常图像。与对抗训练相比，它可以更好地利用更小的数据集，提高样本质量和更稳定的训练。

Method

自然图像已被证明具有频率的幂律分布，其中较低的频率成分对图像的贡献更大。由于高斯白噪声具有均匀的谱密度，部分扩散图像的低频分量不会像高频一样受到破坏。如下图，高斯扩散（row 6）在图像损坏之后任然可以识别异常区域。这限制了AnoDDPM模型的鉴别能力，因为低频分量被推断为相对无破坏的区域，导致在反向过程中重构了大量异常区域。

在假设异常和非异常图像都遵循幂律的前提下，我们有动机修改扩散过程，使应用的噪声遵循类似的幂律，强烈影响低频分量。我们希望从服从幂律的分布中抽样。虽然这些可以通过二维高斯随机场或过程计算，或通过仔细构建协方差矩阵来计算，但我们用 Simplex Noise 来近似它。单纯形噪声使我们能够精确地控制图像中出现的频率分布。与经典的白噪声相比，Simplex Noise 会产生平滑或结构化的随机性，使它们在计算机图形学中很受欢迎。

Simplex Noise

Simplex Noise 相对于标准高斯扰动的好处是直观的:破坏更加结构化，去噪过程将能够“修复”那些结构化的异常。上图的横坐标是 Simplex Noise 的起始频率，纵坐标是个 Simple Noise 的叠加。但是观察直方图可以发现，Simplex Noise 的分布与高斯分布不一致，但是在训练时采样的时候，我们使用到了高斯分布的叠加性：

因此，我们叠加多个 Simplex Noise 使其直方图接近高斯分布，叠加新的 Simplex Noise 时将权重设置为上一个的倍（衰减率）。除非另有说明，我们使用起始频率，，衰减率。

AnoDDPM

输入图像被损坏个时间步得到，然后去噪回到。由于异常的大小可能会不同，我们将参数化为，其中较大的值可以去除较大的异常。在实验中，我们取。、

与决定了能够破坏结构性异常的大小。

Experiment

对比各个起始频率的 Simplex Noise 去噪效果：

与使用高斯噪声的效果对比：

与其他无监督异常检测效果的对比：

NLP

自然语言处理的目的是理解、建模和管理来自不同来源的人类语言，如文本或音频。文本生成已经成为自然语言处理中最关键和最具挑战性的任务之一。它的目的是在给定的输入数据（如序列和关键词）或随机噪声的情况下，用人类语言组成合理的、可读的文本。许多基于扩散模型的方法已被开发用于文本生成。

D3PM 为字符级文本生成引入了类似扩散的生成模型。D3PM泛化了扩散过程里的扩散方式，LMs能够生成高质量的文本。为了在实际应用程序中可靠地部署这些 LM，文本生成过程通常是可控的。这意味着我们需要生成能够满足所需条件的文本（例如，主题、句法结构）。在不重新训练的情况下控制语言模型的行为是文本生成中的一个主要且重要的问题。尽管最近的方法在控制简单的句子属性（例如情感）方面取得了重大成功，但在复杂的细粒度控制（例如句法结构）方面进展甚微。为了解决更复杂的控制，Diffusion-LM 提出了一种基于连续扩散的新语言模型。 Diffusion-LM 从一系列高斯噪声向量开始，并逐步将它们降噪为与单词对应的向量。逐步去噪步骤有助于产生分层的连续潜在表示。这种分层和连续的潜在变量可以使简单的、基于梯度的方法完成复杂的控制成为可能。 Analog Bits 生成模拟位来表示离散变量，并通过自调节和非对称时间间隔进一步提高样本质量。 DiffuSeq 提出了一种新的条件扩散模型来完成更具挑战性的文本生成任务。

扩散模型在文本生成领域的应用

Note: 2022.10.20 日更新。新增添了论文DiffuSeq论文的讨论，并修正了对Diffusion-LM的看法。本文主要讨论以下几篇论文 Structured Denoising Diffusion Models in Discrete State-Spaces（D3PM） Diffusion-LM Improves Controllable Text Generation ...

https://zhuanlan.zhihu.com/p/561233665

Structured Denoising Diffusion Models in Discrete State-Spaces（D3PM）

Structured Denoising Diffusion Models in Discrete State-Spaces

Denoising diffusion probabilistic models (DDPMs) (Ho et al. 2020) have shown impressive results on image and waveform generation in continuous state spaces. Here, we introduce Discrete Denoising Diffusion Probabilistic Models (D3PMs), diffusion-like generative models for discrete data that generalize the multinomial diffusion model of Hoogeboom et al.

https://arxiv.org/abs/2107.03006

2107.03006.pdf

4453.3KB

D3PM 笔者认为最大的亮点在于泛化了扩散过程里的扩散方式。还记得在大一统视角理解扩散模型里，笔者复述了扩散模型的变分推导过程，其中推导到最终将得到以下主要优化的损失函数。

而具体怎么优化该损失函数，主要应用的是扩散模型里每一步加噪都是加高斯噪声的性质，使得最终该函数里的每一项都可求得具体的解析表达式。但应用了高斯分布加噪主要是因为扩散模型主要针对图像或者波形的生成，那么如果要将扩散过程加入到离散的变量里，是否可以用不同的加噪方式？论文指出，主要要满足以下两点：

该加噪方式应使得从中的采样方便快捷。使得我们能够对以上的去噪匹配项里的在任意时间步上方便计算。

同时该加噪方式应使得有方便计算的解析形式，使得我们计算去噪匹配项的 KL 散度成为可能。

很明显，高斯噪声完美符合以上两个要求。而作者则提出了对于离散变量的加噪方式。具体的数理推导笔者按下不表，但简单来说就是定义了一系列转移矩阵。其中关于文本生成的转移矩阵的特点在于基于概率在不同时间步将一个离散词转为 MASK 字符或者保持不变。

笔者看到这里的时候，发现这个形式和笔者之前调研的非自回归式生成里的 CMLM 特别相像。感兴趣的读者可以看看。如果是类似该架构的扩散的话，笔者认为该扩散模型的实现方式在语言质量上仍难谈优秀。CMLM 类的非自回归模型，在文本生成质量上的确难以匹敌自回归式的生成模型。在逐渐去噪的过程中逐步确定生成词的方式，实际上和 CMLM 的做法没有太大本质区别。笔者认为对比 CMLM 不太可能有质的提升。

Diffusion-LM Improves Controllable Text Generation

相比于 D3PM，这篇论文的主要创新点在于定义了一个词嵌入的方程统一了扩散过程里离散到连续的状态。我们可以看到 D3PM 本质上的扩散是在离散序列上做的。但是 Diffusion-LM 的具体做法是前向时离散的字词首先通过词嵌入转为一系列连续的潜在向量。之后对每个连续向量不断加高斯噪声进行前向扩散。后向时不断去噪并且最终将每个潜在向量量化到一个距离最近的词嵌入上。具体来说前向时从离散的词序列到的过程为：

反向去噪到后，则要对每个潜在向量求一个距离最近的离散词。和生成过程中的解码类似，用 softmax 即可。

在大一统视角理解扩散模型里，论文作者解释了扩散模型的不同解读最终可以看做其变分下界里的去噪匹配项里对每一个时间步的潜在向量均值 的不同变形。其具体形式如下：

而在将扩散模型应用到文本生成领域以后，因为多出的词嵌入的关系，作者在该基础上增添了两项词嵌入的优化：

在大一统视角理解扩散模型里，论文作者提到不同的扩散模型对每一时间步的均值的估计可以拆解成三种不同的解法。DDPM 里是直接对噪声进行预测，而作者 lisa 发现如果直接预测噪声会导致最终去噪后的结果不对应任何词嵌入。为了解决这个问题作者改为使用三种解法里的第一种，即直接预测初始输入。

基于从连续到离散难以对应的这个观察，作者还进一步提出了在解码做下游推断的时候，用 clamp 的方法把每一次预测出的初始输入 “夹” 到一个对应的词嵌入上后，再继续去噪。并宣称这样可以让预测更准确，减少 rounding error。

当然这篇论文主要在讨论条件生成这件事。从论文标题也可以看出。具体在条件生成上，作者用的是 SongYang 博士的 Score-matching 的角度用贝叶斯法则做的推导：

其中第二项是个需要单独训练的分类器，其分类的梯度 score 用来更新扩散的输出。其中作者每一步扩散的时候都使用了多次梯度更新计算（3 次 adagrad），为了加速解码作者将扩散步数 T 由 2000 步下降为 200 步。

至此这篇论文的核心要点笔者认为已经梳理完成。以下是笔者的一些看法

作者提到该扩散模型的速度比自回归式的预训练模型慢了 7 倍。但笔者试跑了一下作者代码发现，用 transformer 做初始词的误差估计，并且做 200 次去噪过程。实际生成一个句子在 A100 显卡上要花 4-5 分钟，是自回归式生成类似长度的句子所耗时间的数十倍。这个应该取决于对比的模型和所使用的 transformer 模型的大小，如下一篇 DiffuSeq，所使用的 transformer 模型就比较小，但数百次的前向仍是不小的负担。

目前迭代的方式是类似于 BERT 形式的双向注意力来预测初始误差，笔者起初没有留意到该建模形式，仅从训练目标上误认为所有字词是独立预测的。并疑惑为什么这样的建模能够形成通畅的语句。相信其语言建模能力很大程度来源于此。关于这点，在下一篇 DiffuSeq 的论文里有较详细的展开讨论。

DiffuSeq: Sequence to Sequence Text Generation with Diffusion Models

DiffuSeq 基本是基于 Diffusion-LM 的基础上成型的一篇论文。该论文的核心贡献有两个，一个是相对于 Diffusion-LM 使用了分类器引导扩散条件生成，这篇论文使用的是端到端的无分类器引导扩散条件生成。另外一个贡献则是提供了扩散模型和自回归模型和非自回归模型的对比联系。

关于无分类器引导扩散条件生成，作者使用的方式是将条件文本 c 和目标文本 x 拼接在一起后，在前向扩散过程中只对目标文本 x 加噪，并在后向去噪过程中只对目标文本去噪。具体做法如下图所示

就是 Classifier-free Guided DDPM

而关于该种方式的扩散文本生成模型和自回归与非自回归式模型的关系，作者使用了上面提到的 CMLM 模型作为例子。即给定初始输入后，预测第一步的，之后的每一次迭代既考虑也考虑。

虽然形式上 CMLM 这种非自回归式生成与 Diffusion-LM, DiffuSeq 的生成较为类似，但他们的最大不同在于训练的损失函数的不同，迭代步数的不同，以及采样方式的不同。同时值得注意的是，无论是这篇论文还是 Diffusion-LM，因为使用的是类 BERT 的方式进行迭代文本生成，其语言质量都比较一般。两篇文章都使用了 Minimum-Bayes-Risk(MBR) 的解码方式，即大量生成后再根据 BLEU 或 PPL 挑选的方法。

虽然这篇工作由 classifier-guidance 进一步做到了 classifier-free 的引导生成，但很遗憾依然是定长生成且非自回归式生成。并且根据原论文的实验结果来看，与非自回归式生成相比并没有太明显的优势。

同时还有一个需要考虑的问题是，无分类器引导生成瞄准的是类似于 CLIP 的通用预训练来抵消需要针对专门场景训练分类器的问题。但如果要做到大规模预训练，则模型的参数量必须同等增长，但该扩散模型的生成方式决定了其速度极大地受制于其基底模型，想要达到这种效果其速度必然会无法承受（如果是数十亿的模型做 200 次扩散。。。。）

接下来我们将介绍一篇类似于 Stable-diffusion 在潜在向量空间做扩散的文本生成模型。

Composable Text Control Operations in Latent Space with Ordinary Differential Equations

笔者自身对使用预训练模型作为基底的 VAE 生成模型比较熟悉，也一直在思考扩散模型和文本生成的最佳方式是什么（Diffusion-LM 和 DiffuSeq 其生成需要预先固定长度再开始去噪生成极大地限制了使用场景，且非自回归式生成的语言质量也比较一般）

恰好最近发现了这篇 text control with ODE 论文。笔者认为在技术路线上，该论文比 Diffusion-LM 更为自洽和完善。一方面该论文是在 VAE 里的潜在空间上做扩散，同样是在连续空间上做扩散，该方法避免了 Diffusion-LM 仍需要训练词嵌入并且引发的一系列优化技巧（包括损失函数的增添项，clamp trick 等）。该论文的做法使得扩散过程仅仅在一个低维的连续空间上负责文本性质的控制。而在使得潜在向量具有相应的性质后，再将潜在向量交由解码器去生成文本。这样做有三个好处。一方面，该做法避免了 Diffusion-LM 的定长生成的限制，另一方面因为文本生成依然交由自回归解码器生成，文本通畅程度也得到了一定保证。最重要的是，类似于 stable-diffusion 的出圈, diffusion+VAE 这种做法相比 diffusion-LM 快了将近两个数量级！

对于扩散的具体流程来说，如果给定一个向量为我们所希望拥有的所有性质的值的向量，并且规定为一个判断潜在向量是否拥有相关性质的能量模型（Energy-Based-Model）。那么我们可以得到以下表达式：

其中是 VAE 的高斯先验分布，而是定义在整个性质向量上的能量函数，其形式可以拆解为每个性质的能量函数的加权和。

并且每个能量函数都会以以下形式正则化以避免尺度差异。

注意对于扩散的起点 P(T) 来说，这是个标准的高斯分布，而扩散的终点 P(0) 是我们所定义的 VAE 的高斯先验，也是标准高斯分布。那么实际上我们扩散的每一步 Pt(z) 都服从标准高斯分布。将 P(z), P(a|z) 代入我们的 ODE 采样表达式后我们可以得到以下的 ODE 表达式 (注：有读者向笔者提问不存在 U-Net 也不存在常见的后向扩散，只有一个 ODE 求解器，这是否还能称为扩散。实际上在宋飏博士的论文 [1] 里详细讨论了扩散对应的 SDE 与 ODE 之间的关系。而关于这篇论文里的 ODE 的推导可以看英伟达在图像上的这篇论文 [2]，实际上这篇论文可以说是全文照抄英伟达这篇论文，从创新点到行文架构思路等)

那么整个扩散采样的流程就很确定了。如果是生成新文本类的任务，我们先从高斯先验中采样一个潜在向量，然后根据我们定义的能量模型的能量函数求解以上表达式。当然纯高斯先验与 VAE 的后验不可能完全贴合。所以作者训练了一个单层的 GAN 来近似 VAE 的后验网络以采样 P(T)。而如果是修改已有句子的话就比较简单，直接通过 VAE 的 encoder 得到潜在向量 z 来作为 P(T)。

本论文的主要贡献如上。那么该论文的 VAE+Difussion 的路线和普通的 CVAE 相比有什么差异呢：

CVAE 如果需要对某个性质做条件生成（如情感，关键词）需要大量数据对全量模型训练。但 VAE+Diffusion 不用，只需要固定 VAE 额外训练一个潜在向量的分类器做扩散引导即可。而在潜在向量上的分类器，首先维度低，参数量少，训练资源相比原预训练模型低几个数量级！并且所需的训练数据也极少（原论文仅使用 200 条训练）

CVAE 难以做到性质聚合，往往需要对不同性质的条件生成单独训练且训练出来的模型难以有效地聚合。但 VAE+Diffusion 在理论上展现了这种可能（当然是否有效仍需具体观察）。

不过 VAE+Diffusion 的模式仍存在几个问题笔者觉得会导致条件生成的成功率不高，或者不如论文里 “宣称” 的那么高：

首先是分类器的准确度是需要考虑的问题。直接用 VAE 里的潜在向量去做分类而不是 BERT 的 CLS 去做分类笔者与笔者的同事做过相关实验。准确率相比 CLS 分类是有较为明显的下降的。这样的下降必然会影响扩散引导的效果。

其次是解码器生成时的采样策略必然会导致一定的随机性存在。哪怕是笔者自身训练的 CVAE，在做特定的条件生成时往往也需要对同一个潜在向量重复采样以保证条件生成满足相关性质。

再次是关于多个条件聚合时，不同性质的条件聚合是否会出现明显的互相干扰，是否需要手动调整各个性质的比重系数也值得考虑。

Miscellaneous

Text-to-Image Generation

文本到图像生成是从描述性文本生成相应图像的任务。Blended diffusion 使用了预训练的 DDPM 和 CLIP 模型，它提出了一种基于区域的通用图像编辑解决方案，该解决方案使用自然语言指导适用于真实多样的图像。另一方面，unCLIP (DALLE-2) 提出了一个两阶段的方法，一个先验模型可以生成基于文本标题的基于 CLIP 的图像嵌入，以及一个可以生成图像的基于扩散的解码器以图像嵌入为条件。最近，Imagen 提出了文本到图像的扩散模型和性能评估的综合基准。它表明 Imagen 在对抗包括 VQ-GAN+CLIP 、Latent Diffusion Models 和 DALL-E 2 在内的最先进方法方面表现良好。受 Guided Diffusion Models 生成逼真样本的能力和文本到图像模型处理自由形式提示的能力的启发，GLIDE 将引导扩散应用于文本条件图像合成的应用. VQ-Diffusion 提出了一种用于文本到图像生成的矢量量化扩散模型，它消除了单向偏差并避免了累积预测误差。

DALL·E 2 解读 | 结合预训练 CLIP 和扩散模型实现文本 - 图像生成

论文标题: 《Hierarchical Text-Conditional Image Generation with CLIP Latents》作者 / 单位：Aditya Ramesh et al. / Open AI DALL·E 2 这个模型的任务很简单：输入文本 text，生成与文本高度对应的图片。它主要包括三个部分：CLIP，先验模块 prior 和 img decoder。其中 CLIP 又包含 text encoder 和 img encoder。 DALL·E 2 是将其子模块分开训练的，最后将这些训练好的子模块拼接在一起，最后实现由文本生成图像的功能。这一步是与 CLIP 模型的训练方式完全一样的，目的是能够得到训练好的 text encoder 和 img encoder。这么一来，文本和图像都可以被编码到相应的特征空间。对应上图中的虚线以上部分。 2.

https://lazurite.vercel.app/DALL%C2%B7E%202%20%E8%A7%A3%E8%AF%BB%20%7C%20%E7%BB%93%E5%90%88%E9%A2%84%E8%AE%AD%E7%BB%83%20CLIP%20%E5%92%8C%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B%E5%AE%9E%E7%8E%B0%E6%96%87%E6%9C%AC%20-%20%E5%9B%BE%E5%83%8F%E7%94%9F%E6%88%90

CLIP-Diffusion-LM: Apply Diffusion Model on Image Captioning

Image captioning task has been extensively researched by previous work. However, limited experiments focus on generating captions based on non-autoregressive text decoder. Inspired by the recent success of the denoising diffusion model on image synthesis tasks, we apply denoising diffusion probabilistic models to text generation in image captioning tasks.

https://arxiv.org/abs/2210.04559

2210.04559.pdf

476.7KB

GitHub - xu-shitong/diffusion-image-captioning: implementation of paper https://arxiv.org/abs/2210.04559

Research project on image captioning using diffusion language model. Our model is named as CLIP-DiffusionLM. We provide the extracted CLIP feature for Flickr8k dataset in repo https://github.com/xu-shitong/flickr8k-CLIP-freature} and can be downloaded as shown in CLIP-DDPM.ipynb file. However, due to file size limit, we do not disclose extracted CLIP feature for Flickr30k dataset.

https://github.com/xu-shitong/diffusion-image-captioning

CLIP-DDPM.ipynb

573.0KB

Introduce

在之前提出的工作中，使用的文本编码器可以分为 2 个类别，即自回归和非自回归类。大多数最先进的模型都属于自回归类。然而，自回归生成存在以下问题：

由于生成步骤是逐个 token 的，生成速度慢

不能根据后来生成的 token 来细化句子的前缀

与基于离散标记嵌入预测的语言模型 MLM 相比，基于连续潜在嵌入的扩散模型在图像和音频生成任务中蓬勃发展。据我们所知，之前还没有基于扩散语言模型生成字幕嵌入的工作。

我们使用预训练的 CLIP 模型来提取图像和文本特征，并使用基于 Diffusion-LM 的 DistilBert 模型来生成文本序列。

Method

Image Caption 使用 CLIP 特征为条件的扩散过程组成。在每个阶段，CLIP-Diffusion-LM 接收维度的Caption Embedding ，以及对应于 CLIP 文本和图像特征的两个维度向量。每个 CLIP 特征都由 MLP 层投影到空间，然后与进行融合。输入到 DistilBert 模型，而 DistilBert 模型的输出的预测。

在最后的扩散阶段之后，模型对预测的通过权重矩阵 lm-head 进行线性投影，并取 Softmax 值得到预测词在每个序列位置的概率。最后，将每个位置的具有最大概率的单词连接起来，形成输出文本字幕序列。

CLIP 模型为预训练模型，用于提取 ground truth 字幕嵌入的嵌入层和 lm-head 都使用预训练的 DistilBert 模型嵌入层参数，并且在模型训练中未进行优化。

前向的时候，如果没有指定条件文本，Text feature 为全零向量。对于 classification-free guidance 的 Image Caption 实验，还提取了 CLIP 文本特征作为指导上下文以提高性能（将 Text feature 作为条件文本）。

DDPM 的模型结构参考于 Diffusion-LM Improves Controllable Text Generation

lazurite.vercel.app

https://lazurite.vercel.app/%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B%E5%9C%A8%E6%96%87%E6%9C%AC%E7%94%9F%E6%88%90%E9%A2%86%E5%9F%9F%E7%9A%84%E5%BA%94%E7%94%A8

Robust Learning

鲁棒学习是一类防御方法，可帮助学习对对抗性扰动或噪声具有鲁棒性的网络。虽然 adversarial training 被视为针对图像分类器的 adversarial attacks 的标准防御方法，但 adversarial purification 已显示出作为替代防御方法的显着性能，它使用独立的净化模型将受攻击的图像净化为干净的图像。给定一个对抗性示例，DiffPure 在前向扩散过程之后用少量噪声对其进行扩散，然后通过反向生成过程恢复干净的图像。自适应去噪净化（ADP）表明，经过去噪分数匹配训练的 EBM 只需几个步骤即可有效地净化受攻击的图像。它进一步提出了一种有效的随机净化方案，在净化前将随机噪声注入图像中。投影梯度下降 (PGD) 提出了一种新颖的基于随机扩散的预处理鲁棒性，旨在成为与模型无关的对抗性防御并产生高质量的去噪结果。此外，一些工作建议将引导扩散过程应用于高级对抗性纯化。

Interdisciplinary Applications

Medical Image Reconstruction

从观察到的测量中恢复未知信号的逆问题，是计算机断层扫描 (CT) 和磁共振成像 (MRI) 医学图像重建中的一个重要问题。宋等人利用基于分数的生成模型来重建与先前和观察到的测量值一致的图像。钟等人训练具有去噪分数匹配的连续时间相关分数函数，并在数值 SDE 求解器和数据一致性步骤之间迭代，以在评估阶段进行重建。彭等人在给定观察到的空间信号的情况下，通过逐步引导反向扩散过程来执行 MR 重建，并提出了一种从粗到细的采样算法以实现高效采样。

Solving Inverse Problems in Medical Imaging with Score-Based Generative Models

Reconstructing medical images from partial measurements is an important inverse problem in Computed Tomography (CT) and Magnetic Resonance Imaging (MRI). Existing solutions based on machine learning typically train a model to directly map measurements to medical images, leveraging a training dataset of paired images and measurements.

https://arxiv.org/abs/2111.08005

Score-based diffusion models for accelerated MRI

First proposal of using score-based diffusion model for accelerated MRI, showing strong performance and practicality. * A single score function trained with magnitude images only, is applicable to all the different sampling schemes, and is also compatible with parallel imaging. * Uncertainty quantification made possible due to the generative nature of the method.

https://www.sciencedirect.com/science/article/abs/pii/S1361841522001268

Towards performant and reliable undersampled MR reconstruction via diffusion model sampling

Magnetic Resonance (MR) image reconstruction from under-sampled acquisition promises faster scanning time. To this end, current State-of-The-Art (SoTA) approaches leverage deep neural networks and supervised training to learn a recovery model. While these approaches achieve impressive performances, the learned model can be fragile on unseen degradation, e.g. when given a different acceleration factor.

https://arxiv.org/abs/2203.04292