(CVPR2023)DCFace: Synthetic Face Generation with Dual Condition Diffusion Model 论文阅读

date

Jun 18, 2023

Last edited time

Jun 18, 2023 08:10 AM

status

Published

slug

DCFace论文阅读

Abstract

生成用于训练人脸识别模型的合成数据集具有挑战性，因为数据集的生成不仅仅涉及到创建高保真度的图像，还需要在不同因素下生成同一主题的多个图像（例如姿势、光照、表情、年龄和遮挡的变化），并且这些图像需要符合真实图像的条件分布。

本文从 ID 和 Style 的角度来解决这个问题，提出了基于扩散模型的双条件面部生成器（DCFace），生成用于训练人脸识别模型的合成数据集。DCF面部合成模型能够以精确的控制生成同一主题在不同风格下的面部图像，相比之前的方法，在人脸识别模型中能够获得更高的验证准确性。

论文的主要动机是解决生成合成人脸数据集时面临的三个关键问题：生成大量新颖的主题、模仿目标领域中真实图像的分布、以及一致地生成同一主题的多个图像。

在第一阶段，使用人脸图像生成器生成高质量的人脸图像，该图像定义了一个人的外貌特征。同时，从样式库中选择一个样式图像，该图像定义了最终图像的整体风格。在第二阶段，使用双条件生成器（dual condition generator）将这两个条件混合，预测出一个具有的身份和的风格的图像。

💡

Both and are based on diffusion models

这个生成器的训练并不简单，因为它需要（主体A的身份和主体B的风格的假设组合）。通过重复这个过程多次，可以生成一个带有标签的合成人脸数据集。

Dual Condition Generator

传统的方法需要使用参考图像，即主体A以主体B的风格呈现的图像。然而，在标记的训练数据集中并没有这样的参考图像。

为了解决这个问题，本文修改了操作，将其改为，即使用来自同一主体的两个不同图像进行操作。但这样可能导致网络忽略，直接使用输入来完成重建。

Patch-wise Style Extractor

本文提出了一种名为 Patch-wise Style Extractor 的模块，用于提取图像的风格信息。该模块的目标是将图像映射到一个特征上，该特征包含很少的身份信息，从而迫使生成器在身份信息方面依赖于图像。

具体而言，它使用一个预训练的固定人脸识别模型，并提取其中间特征。然后，将这个特征分成一个的网格，每个网格被视为一个patch。对于每个patch，计算其均值和标准差。这样，就得到了一个包含了图像的风格信息的 patch-wise 特征。

Time-step Dependent ID Loss

Time-step Dependent ID Loss ，用于在生成过程中引导模型学习身份信息。在生成合成人脸图像的过程中，身份信息是非常重要的，因为我们希望生成的图像能够保持与真实主体的身份一致。

传统的均方误差（MSE）损失函数往往难以学习到细粒度的面部差异，特别是身份信息。为了解决这个问题，本文提出了 Time-step Dependent ID Loss，通过在时间步骤上对身份信息进行线性插值来引导模型学习身份信息。

具体来说，首先设计一个损失函数来最大化和预测去噪图像之间在 ID 特征空间的相似性：

为预训练的模型。然而，提取的特征对于 Style 不是完全忽视的，因此，添加：

导致模型依赖获取 ID 信息。然而，在测试的时候，与的身份是不同的，生成的数据集中的标签一致性受到损害。

该损失函数通过在识别特征空间中的和之间进行线性插值，强制生成器依赖于提取主体的外貌，并逐渐将风格转移到。

💡

没懂这里的理由是什么？但是确实效果好一点。