MaskDiff: Modeling Mask Distribution with Diffusion Probabilistic Model for Few-Shot Instance Segmentation 论文阅读

为了克服点估计机制的缺点，我们提出了一种新方法称为 MaskDiff。它模拟了一个基于对象区域和 K-shot 信息条件的二进制掩码的潜在条件分布。受到通过高斯噪声扰动数据以填充低数据密度区域的增强方法的启示，我们使用扩散概率模型对掩码分布进行建模。此外，我们提出利用无分类器引导掩码采样将类别信息整合到二进制掩码生成过程中。

Introduce

少样本学习

Few-shot (少样本)学习是一种方法，其旨在通过在很少的训练数据（K个示例）上训练模型来学习新概念，并将基类上训练的模型推广到适应新颖类别。

💡

在 Few-shot 学习中，我们有一个不相交的基础类，其中包含大量的训练数据，以及一组具有有限注释数据的新颖类，使得。主要目标是训练一个在新颖类上表现良好的模型，或者在基础类和新颖类一起上表现良好的模型。

传统的少样本实例分割（FSIS）方法试图通过原型学习来解决在少量样本上的学习问题。这种匹配机制搜索最近的原型及其对应的支持类别，从支持图像中为分割查询图像提供指导（见图1a）。

与现有的 FSIS 方法相比，我们将对象区域、对象类别和 K-shot 示例视为生成每个对象的二进制掩模表示的条件信息。在数学上，我们将对象实例的二进制掩模，建模为条件是来自特定类别的对象区域和 K-shot 知识，即。

Method

Proposed MaskDiff method

基于扩散的两阶段训练在 FSIS 中的可视化结果如图3所示。在第一阶段，即基础训练阶段，网络仅在基础类上进行训练。我们单独训练少量样本目标检测器头和估计掩膜分布。RoI余弦相似度分类器和框回归器遵循标准训练过程，而掩膜分布建模头则基于条件 DPM 进行训练。这是因为框回归器在早期阶段尚未足够稳定，而概率模型要高效地估计掩膜分布较为复杂。错误定位物体可能会导致非常不满意的分割结果。

第二阶段是少样本微调阶段，需要冻结特征提取器，并在平衡的个样本的数据集上联合微调和类的预测头。所有预测头，包括、和，都会进行微调。

Instance mask modeling with conditional DPM

我们从一个FSIS数据集中提取了一个输入输出对的数据集，表示为 ，用于对给定物体区域和 信息建模二进制掩码分布。其中， 对应于从注释中的边界框位置裁剪的 RGB 图像中的物体区域，对应于在相同位置处的二进制掩码表示。每个类别的样本是指去除背景的物体区域的版本。为简单起见，我们使用、和来表示二进制掩码、物体区域和指导。

我们的目标是学习基础条件分布，从中抽样表示二进制掩码的数据点，即。然而，确定确切的真实分布是不可行的。我们使用扩散模型来最大化似然，以近似真实分布。