(CVPR2023) DiffusionRig: Learning Personalized Priors for Facial Appearance Editing 论文阅读

date

May 25, 2023

Last edited time

May 25, 2023 07:13 AM

status

Published

slug

DiffusionRig论文阅读

Abstract

这篇文章介绍了DiffusionRig，一种学习个性化面部外观编辑的方法。它可以编辑人物的面部表情和照明，同时保留其身份和高频面部细节。这种方法解决了计算机视觉和图形学中长期存在的问题，即如何在保留人物身份的同时，实现对肖像照片进行逼真的光照、表情、头部姿态等编辑。

DiffusionRig 的训练过程分为两个阶段。第一阶段是从大规模的人脸数据集中学习通用的面部先验知识，第二阶段是从感兴趣的人物的小型肖像照片集合中学习个性化的先验知识。通过使用这些个性化的先验知识，DiffusionRig 可以“rig”（即编辑）肖像照片的光照、面部表情、头部姿态等，只需基于粗略的 3D 模型条件即可保留该人物的身份和其他高频特征。

Diff-AE

Diffusion Autoencoders: Toward a Meaningful and Decodable Representation 论文阅读

发现距离自己上次更新已经10天了, 不行啊, 日后可不能摸鱼了

https://lazurite.vercel.app/Diffusion_Autoencoders论文阅读

Why not Diff-AE

虽然 Diff-AE 可以用于面部编辑，但它只能处理二元语义标签所表示的简单变化，如从微笑到不微笑。而 DiffusionRig 可以处理更复杂的 3D 编辑，如光照和头部姿态的变化。此外，DiffusionRig 还可以保留人物的身份和其他高频特征，使得编辑后的图像更加真实。因此，本文提出了 DiffusionRig 方法来解决 Diff-AE 无法处理复杂编辑和保留身份特征的问题。

Method

Training

第一阶段，DiffusionRig 从大规模的人脸数据集 CelebA 中学习通用的面部先验知识，以了解如何将表面法线和 Lambertian 渲染映射到逼真的图像中。这个阶段使用的是一个通用模型，因此不能保证身份特征的保留。

第二阶段，DiffusionRig 使用一个小型肖像照片集合对模型进行微调，以学习一个特定人物的面部先验知识。在这个阶段中，DiffusionRig 可以生成与该人物相似但具有所需编辑效果的图像，并且可以保留该人物的身份和其他高频特征。

💡

解决 “保留身份特征” 问题

Model

DiffusionRig 的输入是一张单人肖像照片，该照片可以是任何姿态和光照条件下的人脸图像。在进行编辑之前，DiffusionRig 首先从这张照片中提取出粗略的物理属性，如表面法线、反射率和 Lambertian 渲染等 (使用DECA)。然后，在 3DMM 空间中对这些属性进行所需的 3D 编辑，最后使用扩散模型将编辑后的“物理缓冲区”映射到逼真的图像中。因此，DiffusionRig 的输入是一张单人肖像照片和所需的 3D 编辑信息。

形式上，我们的模型可以描述为其中是时间步处的噪声图像，表示物理缓冲区，是原始图像，是预测噪声，和分别是去噪模型和全局潜在编码器。

💡

解决 “编辑” 问题