MaskDiff: Modeling Mask Distribution with Diffusion Probabilistic Model for Few-Shot Instance Segmentation 论文阅读
date
Apr 1, 2023
Last edited time
Apr 1, 2023 06:21 AM
status
Published
slug
MaskDiff论文阅读
tags
DL
CV
summary
type
Post
Field
Plat
AbstractIntroduceMethodProposed MaskDiff methodInstance mask modeling with conditional DPMAlgorithmExperimentsResultAblation Study
就是因为嫌直接使用点估计,所以在后面加了一个扩散模型。使用需要分割的区域以及目标分割物体的示例作为条件来采样得到分割的 mask。但是没有提供代码。想抄这里的扩散模型代码,可恶。
Abstract
少样本实例分割涉及使用仅有的几个新类别的注释示例从查询图像中分割实例对象。传统方法试图通过原型学习(称为点估计)来解决该任务。然而,该机制容易受到噪声的影响,并且由于数据极度稀缺而存在偏差。
为了克服点估计机制的缺点,我们提出了一种新方法称为 MaskDiff。它模拟了一个基于对象区域和 K-shot 信息条件的二进制掩码的潜在条件分布。受到通过高斯噪声扰动数据以填充低数据密度区域的增强方法的启示,我们使用扩散概率模型对掩码分布进行建模。此外,我们提出利用无分类器引导掩码采样将类别信息整合到二进制掩码生成过程中。
Introduce
- 少样本学习
Few-shot (少样本)学习是一种方法,其旨在通过在很少的训练数据(K个示例)上训练模型来学习新概念,并将基类上训练的模型推广到适应新颖类别。
在 Few-shot 学习中,我们有一个不相交的基础类 ,其中包含大量的训练数据,以及一组具有有限注释数据的新颖类 ,使得 。主要目标是训练一个在新颖类 上表现良好的模型,或者在基础类和新颖类一起 上表现良好的模型。
传统的少样本实例分割(FSIS)方法试图通过原型学习来解决在少量样本上的学习问题。这种匹配机制搜索最近的原型及其对应的支持类别,从支持图像中为分割查询图像提供指导(见图1a)。
与现有的 FSIS 方法相比,我们将对象区域、对象类别和 K-shot 示例视为生成每个对象的二进制掩模表示的条件信息。在数学上,我们将对象实例的二进制掩模,建模为条件是来自特定类别 的对象区域和 K-shot 知识,即 。
Method
Proposed MaskDiff method
基于扩散的两阶段训练在 FSIS 中的可视化结果如图3所示。在第一阶段,即基础训练阶段,网络仅在基础类 上进行训练。我们单独训练少量样本目标检测器头和估计掩膜分布。RoI余弦相似度分类器 和框回归器 遵循标准训练过程,而掩膜分布建模头 则基于条件 DPM 进行训练。这是因为框回归器 在早期阶段尚未足够稳定,而概率模型要高效地估计掩膜分布较为复杂。错误定位物体可能会导致非常不满意的分割结果。
第二阶段是少样本微调阶段,需要冻结特征提取器 ,并在平衡的 个样本的数据集上联合微调 和 类的预测头。所有预测头,包括 、 和 ,都会进行微调。
Instance mask modeling with conditional DPM
我们从一个FSIS数据集中提取了一个输入输出对的数据集,表示为 ,用于对给定物体区域和 信息建模二进制掩码分布。其中, 对应于从注释中的边界框位置裁剪的 RGB 图像中的物体区域, 对应于在 相同位置处的二进制掩码表示。每个类别的 样本是指去除背景的物体区域的版本。为简单起见,我们使用 、 和 来表示二进制掩码、物体区域和 指导。
我们的目标是学习基础条件分布,从中抽样表示二进制掩码的数据点,即 。然而,确定确切的真实分布是不可行的。我们使用扩散模型来最大化似然 ,以近似真实分布。