Diffusion Autoencoders: Toward a Meaningful and Decodable Representation 论文阅读
date
Dec 27, 2022
Last edited time
Mar 27, 2023 08:39 AM
status
Published
slug
Diffusion_Autoencoders论文阅读
tags
DL
CV
DDPM
summary
发现距离自己上次更新已经10天了, 不行啊, 日后可不能摸鱼了
type
Post
Field
Plat
Abstract
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F1a5f3585-adaa-450d-9002-cf12a63b17f5%2FUntitled.png?table=block&id=73a69265-b794-4be8-8d2e-a2d5e1e44737&cache=v2)
- Problem
DPM 使用一组缺乏语义的 latent code 作为隐表示,不能作为其他任务的有用表示。我们想要提取出能够用于解缠结、紧凑性或在潜在空间中执行有意义的线性插值的能力。
具体来说,我们想要使用 DPM 提取图像的有意义且可解码的表示,该表示包含高级语义但允许近乎精确地重建图像。
- Method
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F5110bd0a-dfc0-44a8-a6a7-193d89bafc21%2FUntitled.png?table=block&id=451a3e30-3eee-4f87-9046-a38cc3fdfc15&cache=v2)
我们将任何图像编码成两部分的潜在代码,其中第一部分在语义上是有意义的和线性的,第二部分捕获随机细节,允许近乎精确的重建。
Method
为了追求有意义的潜在代码,我们设计了一个以附加潜在变量 为条件的条件 DDIM 图像解码器 ,以及学习语义编码器 输入图像 映射到语义上有意义的 。在这里,条件 DDIM 解码器将潜在变量 作为输入,它由高级语义编码 和低级随机编码 组成,通过反转生成过程推断DDIM。在此框架中,DDIM 充当解码器和随机编码器。
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F5110bd0a-dfc0-44a8-a6a7-193d89bafc21%2FUntitled.png?table=block&id=8d046b3b-2d87-419c-a7bc-43edac2a64c7&cache=v2)
DDIM 可以被认为是一个图像解码器,它将潜在代码 解码回输入图像。![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2Ff7b22c59-912a-4955-a69e-439e509a914c%2FUntitled.png?table=block&id=1d3d9bcf-b5e0-44b0-97a2-9dd62c817745&cache=v2)
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2Ff7b22c59-912a-4955-a69e-439e509a914c%2FUntitled.png?table=block&id=1d3d9bcf-b5e0-44b0-97a2-9dd62c817745&cache=v2)
使用反向使用DDIM, 我们可以得到公式:
依次执行确定性的前向扩散, 并把得到的结果 视为另一个编码, 因为 移除了可以通过 预测的信息。通过使用语义编码器和随机编码器, 可以完成对高级语义以及低级图像信息的重建。
Sampling with diffusion autoencoders
为了能够从训练的模型当中采样, 使用一个 lantent DDIM 来拟合分布 . 生成过程从这个 DDIM 模型当中采样一个 , 并从高斯分布当从采样一个 .
Experiments
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F86cfe089-501b-4990-a765-edcdc5f5a0ef%2FUntitled.png?table=block&id=bb346b35-4c63-424f-84ef-39cbda4cde06&cache=v2)
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2Fdb224465-2279-4869-ad86-c6e9d5ffa323%2FUntitled.png?table=block&id=c5acca17-d20c-4392-8322-1ff9f203109b&cache=v2)
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F7f3375b6-504a-4bb3-bf95-95dfbcaebc7d%2FUntitled.png?table=block&id=1dc31d14-5d20-4243-a326-ffdee5618de3&cache=v2)