(CVPR2022-Oral) Perception Prioritized Training of Diffusion Models

date
Nov 14, 2023
Last edited time
Nov 14, 2023 05:31 AM
status
Published
slug
P2
tags
DDPM
summary
type
Post
origin
Field
Plat
notion image

Introduce

本文表明,特定恢复噪声等级污染的数据为模型学习丰富的概念提供了合适的先决任务。我们建议在训练过程中优先考虑这些噪声等级,通过重新设计目标函数的加权方案。我们展示了我们简单的重新设计加权方案如何显着提高扩散模型的性能,无论数据集、架构和采样策略如何。
扩散模型是通过阶梯噪声来生成图像的,其中噪声分布是容易处理的。为了实现这个目标,模型学习预定义的扩散过程的逆过程,该过程使用不同程度的噪声声逐步破坏图像的内部内容。模型通过优化各个噪声水平下的噪声评分对应损失的总和来进行训练,该损失旨在学习从损坏图像恢复出噪声图像的过程。Ho等人观察到他们经验上得到的损失加权和对样本质量更有利。这种加权目标成为训练扩散模型的当前标准事实目标。然而,令人惊讶的是,我们仍然不知道为什么这种目标表现良好,以及它是否是样本质量的最佳选择。
本文首先研究了扩散模型在每个噪声水平上获取的内容。我们的主要观点是,扩散模型通过解决噪声每个水平上的借口任务来学习丰富的视觉概念,即从像中的受损图恢复图像在图像的噪声水平略有损坏的情况下,图像已经具备了丰富的内容,因此恢复图像不需要先验的图像上下文知识。例如,模型可以通过邻近的响铃像素恢复嘈杂的像素。因此,模型学习很难感知的细节,而不是高级的上下文。相比之下,当图像严重损坏以致内部难以辨别时,模型学习了感知可辨别的内容来解决给定的借口任务。
我们提出了P2(感知优先)加权方案,旨在优先解决更重要的噪声级别的借口任务。我们在模型学习中积累丰富内容的级别上分配较高权重的损失,同时在学习难以感知的细节级别上分配了较小的损失权。

Method

在训练过程中,模型在每一步学到了什么信息 ?

扩散模型的输出是噪声,其他生成模型(VAE,GAN)直接输出图。由于噪声不包含任何内容或信号,因此很难理解噪声预测对于学习丰富的概念有何贡献。噪声模型的这种特性引发了以下问题:“在训练过程中,模型在每一步中获取了什么信息? ”
notion image
左图的蓝线代表两个相同的图()在扩散过程中的LPIPS距离变化,橙线为两个不同的图()在扩散过程中的LPIPS距离变化。
notion image
notion image

“感知优先” (P2) 加权

notion image
notion image

Experiment

notion image
notion image
 

© Lazurite 2021 - 2024