All are Worth Words: A ViT Backbone for Diffusion 论文阅读

date

Apr 1, 2023

Last edited time

Apr 1, 2023 06:20 AM

status

Published

slug

U-VIT论文阅读

tags

summary

type

Post

origin

https://www.notion.so/lazurite/All-are-Worth-Words-A-ViT-Backbone-for-Diffusion-a133b333eb8e40d88a01d4d7f69ad34b?pvs=4

Field

Plat

All are Worth Words: A ViT Backbone for Diffusion Models

Vision transformers (ViT) have shown promise in various vision tasks while the U-Net based on a convolutional neural network (CNN) remains dominant in diffusion models. We design a simple and...

http://arxiv.org/abs/2209.12152

Bao 等 - 2023 - All are Worth Words A ViT Backbone for Diffusion .pdf

13457.8KB

GitHub - baofff/U-ViT: A PyTorch implementation of the paper "All are Worth Words: A ViT Backbone for Diffusion Models".

A PyTorch implementation of the paper &quot;All are Worth Words: A ViT Backbone for Diffusion Models&quot;. - GitHub - baofff/U-ViT: A PyTorch implementation of the paper &quot;All are ...

https://github.com/baofff/U-ViT

💡

U-ViT是一个适用于Diffusion的Backbone，简单替换了VIT的输入。它将所有输入（包括时间、Condition和噪声图像patch）都视为token，并使用浅层和深层之间的长跳过连接。实验(调参)部分很详细（CVPR2023）。

Abstract Method Implementation Details Effect of Depth, Width and Patch Size Result

Abstract

我们提出了U-ViT，这是一种用于扩散模型图像生成的简单通用架构。U-ViT将所有输入（包括时间、Condition 和噪声图像 patch）都视为 token，并使用浅层和深层之间的长跳过连接。我们在无条件和类条件图像生成以及文本到图像生成任务中评估了U-ViT。我们的结果显示，与类似大小的基于CNN的U-Net相比，U-ViT是可比甚至更优的。

特别是，在ImageNet 256x256的类条件图像生成中，U-ViT实现了创纪录的FID得分为2.29，在MS-COCO上的文本到图像生成中，实现了5.48的FID得分，而在生成模型训练期间没有访问大型外部数据集。这些结果表明，长跳过连接对基于扩散的图像建模至关重要，而CNN-based U-Net中的下采样和上采样运算符并不总是必要的。

Method

U-ViT 是图像生成扩散模型的简单而多功能的骨干结构（图1）。具体来说，U-ViT在参数化噪声预测网络时，将时间、条件和噪声图像作为输入，预测注入到中的噪声。遵循ViT的设计方法，图像被分成 patch，U-ViT将所有输入，包括时间、条件和图像 patch，都视为 token。

受基于 CNN 的 U-Net 在扩散模型中的成功启发，U-ViT 也采用了类似的浅层和深层之间的长跳连接。直观地说，中的目标涉及对像素级的预测任务，这对低级特征非常敏感。长跳连接为低级特征提供了捷径，从而简化了噪声预测网络的训练。

U-ViT 提供了一个可选的 3x3 卷积块，用于在输出之前防止 Transformer 生成的图像出现潜在的伪像。我们的实验表明，这个块可以提高 U-ViT 生成样本的视觉质量。

Implementation Details

The way to combine the long skip branch.

在将两个 Transformer 块的输出馈送到下一个块之前，我们考虑结合它们的几种方法。这些方法包括：(1)将输出连接起来并进行线性投影，如图1所示：；(2)直接将输出相加：；(3)对进行线性投影，然后将其添加到中：；(4)将输出相加，然后进行线性投影：。我们还将这些方法与删除长跨接线的情况进行比较。

The way to feed the time into the network

有两种将输入网络的方式。第一种方式是将其视为 token。第二种方式是在 Transformer 中使用层归一化后加入时间，类似于U-Net中使用的自适应组归一化。