Deblurring via Stochastic Refinement 论文阅读

date

Feb 25, 2023

Last edited time

Mar 27, 2023 08:36 AM

status

Published

slug

Deblurring_via_Stochastic_Refinement论文阅读

Abstract

大多数现有图像恢复方法都会对干净图像进行确定性估计，并经过训练以最小化像素级失真。然而用来指导模型优化的这些指标与人类感知的相关性很差，常常导致不现实的重建，比如比较常见的---恢复过程中图像纹理被破坏，导致图像过度平滑。具体来说，我们引入了一个“预测和优化”条件扩散模型，其中确定性数据自适应预测器与随机采样器联合训练，随机采样器改进了所述预测器的输出。

contribution

将去模糊视为一项条件生成建模任务，寻求从后验分布中生成不同的样本。标准扩散模型相比，我们的预测和细化方法能够实现更高效的采样。

第一种利用深度生成模型并能够生成不同样本的盲去模糊技术。能够在不牺牲像素级失真的情况下生成逼真的图像。

其恢复的图像不仅在感官上有较好的表现，同时对于PSNR这类逐像素比对的指标上也具有竞争力。

通过改变采样的step以及噪声水平可以实现输出结果在PD曲线上平滑移动。论文中还提到较高的step数和较低的噪声水平可以获得高感知的图像，较低的step数和较高的噪声水平可以获得高保真的图像。

Method

Predict-and-Refine Diffusion Model

DPM 的主要缺点之一是生成样本的计算成本，由于迭代去噪过程，这可能需要多达数千次去噪网络的前向传递。我们引入了一种简单的技术，通过利用为条件生成模型获取一个廉价的初始预测，从而降低成本。具体来说，我们使用确定性初始预测器增强了我们的条件扩散模型，它为干净图像提供了初始预测，然后降噪网络只需要对残差进行建模。

我们使用表示初始预测，那么新目标变为：

我们在算法 1 中包含了修改后的采样过程的伪代码。请注意，初始预测器不需要额外的损失或预训练，因为损失的梯度通过流入。

由于初始预测器仅运行一次，因此通过将大部分计算卸载到初始预测器中，保持去噪网络的规模较小是有益的。这样做可以大大提高采样的效率，因为减少去噪网络的计算成本可以使我们使用更大的采样步数。

Perception-Distortion Trade-off

我们观察到，使用许多噪声水平较小的步骤通常会导致更好的感知质量，而使用较少的噪声水平较大的步骤会导致更低的失真。对于我们的实验，我们对 Noise Schedule 超参数运行了一次小的网格搜索，并使用 LPIPS 得分最佳的模型（标记为“Ours”）。

Sample averaging

我们对模型的多个样本进行平均，以近似条件均值，即最小均方误差估计量。因此，我们报告了第二个模型的结果（标记为“Ours-SA”），该模型返回多个样本的平均值。

Traversing the Perception-Distortion curve

通过适当设置推断时间超参数 (sampling steps , noise schedule , and sample averaging)，我们可以平滑地穿越 P-D 曲线。

💡

经过LPIPS优化的模型（“Ours”）使用相对较大的步数，不使用 Sample averaging，以在略微降低PSNR的情况下实现高感知质量。优化失真的模型（“Ours-SA”）则相反，使用和 Sample averaging 来牺牲感知质量以获得更高的 PSNR。图1中曲线上的每个点对应于这些超参数的特定选择。

Experiments

Result

Analysis

Benefits of Residual Modeling

残差建模的主要好处是降低采样的计算成本。由于扩散采样具有迭代性质，所以 denoiser 必须为每个生成的样本运行许多次。因此，任何减少运行 denoiser 成本的方法都非常有价值，我们的初始预测器为卸载部分计算提供了一种简单的方法。

一个关键问题是，初始预测器能否弥补使用更小的去噪网络所带来的样本质量降低。我们通过比较有无初始预测器时的采样延迟和样本质量来进行实证探究。非残差模型是指具有大型去噪网络的常规条件扩散模型。残差模型遵循我们的架构，具有大型初始预测器和小型去噪器。总的来说，残差模型具有更多的参数(33M vs. 28M)。

Residual images are simpler to model

我们认为残差建模的好处可能是由于残差图像的分布比参考图像的分布更加“简单”。具体来说，我们计算残差图像和参考图像中所有像素位置的像素值的熵。从自然图像的角度来看，参考像素分布相当分散，熵为7.42位/维（bpd）。另一方面，残差像素值遵循一个更加尖锐集中的分布，导致更低的熵，为3.91 bpd。这表明残差图像可能确实更容易建模。

Network Architecture Ablation

为了更好地理解我们的方法的性能提升从何而来，我们训练了一个仅使用初始预测器的基于回归的基线。令人惊讶的是，我们观察到在使用简单的 L2 损失进行训练时，仅初始预测器就能够实现 33.07 的最先进 PSNR。通过详细的消融研究，我们确定了三个关键的超参数：权重的指数移动平均值 (EMA)、大批量大小和网络大小。在表 4 中，我们从一个简单的 U-Net 架构 [57] 开始，逐渐启用上述每个超参数。所有模型都接受了 1M 步的训练，以确保差异不是由于训练不足造成的。正如结果所示，所有三个超参数对模型的性能都至关重要。