Dynamic Sparse R-CNN

date
Jun 2, 2022
Last edited time
Mar 27, 2023 08:52 AM
status
Published
slug
Dynamic_Sparse_R-CNN
tags
DL
CV
summary
type
Post
Field
Plat
Sparse R-CNN是最近的一种强目标检测Baseline,通过对稀疏的、可学习的proposal boxes和proposal features进行集合预测。在这项工作中提出了 2 个动态设计来改进Sparse R-CNN。
首先,Sparse R-CNN采用一对一标签分配方案,其中匈牙利算法对每个Ground truth只匹配一个正样本。这种一对一标签分配对于学习到的proposal boxesGround truth之间的匹配可能不是最佳的。为了解决这一问题,作者提出了基于最优传输算法的动态标签分配(DLA),在Sparse R-CNN的迭代训练阶段分配递增的正样本。随着后续阶段产生精度更高的精细化proposal boxes,在后续阶段对匹配进行约束,使其逐渐松散。
其次,在Sparse R-CNN的推理过程中,对于不同的图像,学习到的proposal boxesproposal features保持固定。在动态卷积的驱动下提出了Dynamic Proposal Generation(DPG) 来动态组合多个Proposal Experts,为连续的训练阶段提供更好的初始proposal boxesproposal features。因此,DPG可以导出与样本相关的proposal boxesproposal features来进行判断。
实验表明,Dynamic Sparse R-CNN可以增强具有不同Backbone的强Sparse R-CNN Baseline。特别是,Dynamic Sparse R-CNN在 COCO 2017 验证集上达到了最先进的 47.2% AP,在相同的ResNet-50 Baseline下比Sparse R-CNN高出 2.2% AP。

1 简介

近年来,目标检测得到了快速的发展,从卷积神经网络 (CNN) 到 Transformer,特征提取的Backbone各不相同,检测Pipeline的设计也各不相同。根据回归次数的不同,检测器主要可分为One-StageTwo-StageMulti-Stage
One-Stage检测器直接预测给定图像中的回归目标和类别,而不需要进行细化步骤。Two-Stage检测器首先生成有限数量的前景候选proposal(例如,区域建议网络 (RPN)),然后将proposal传递到检测网络以细化位置和类别。Multi-Stage检测器可以多次细化位置和类别,从而提高性能,但通常需要大量的计算开销。
One-Stage检测方法一般可分为Anchor-Base检测器和Anchor-Free检测器。Anchor-Base检测器在图像中设计密集的预定义Anchor,然后直接预测类别并细化Anchor的坐标。然而,手动Anchor配置可能不是最终性能的最佳选择。为了克服这一问题,提出了Anchor-Free检测器。Anchor-Free检测器通常使用中心点或区域内的Ground truth来定义正样本的proposal和预测偏移,以获得最终的边界框。
最近,基于Transformer的检测器被提出,通过使用Transformer编码器和解码器架构将目标检测定义为一个集合预测问题。这些方法用少量可学习的目标查询代替Anchor机制,可以对目标和全局图像上下文之间的关系建模,输出最终的预测结果。匈牙利算法是一种基于分类和回归的组合损失,用于寻找Ground truth和预测之间的匹配。但是这些检测器中的标签分配是一对一的方式,在训练期间只有一个单一的检测器匹配一个Ground truth
notion image
现有的基于 CNN 的方法,使用多对一的标签分配方案,假设分配多个阳性的Ground truth可以更有效地优化proposal,可以促进检测器得到更好的性能。
因此,针对Sparse R-CNN的强 Baseline,提出了基于最优传输算法的多对一动态标签分配(DLA)。在Sparse R-CNN的迭代阶段,也采用了逐渐增加的正样本分配给 GTs。由于每个阶段都会为下一个阶段产生精细化的proposal boxesproposal features,作者希望限制Ground truth和预测框之间的匹配,在前期阶段更严格,在后期阶段更宽松,因为在后续阶段的预测精度越来越高。
此外,在Sparse R-CNN中,目标查询 (即proposal boxesproposal features) 在训练过程中是可学习的,但在推理过程中对不同的图像保持固定。在动态卷积的驱动下提出了动态proposal生成 (DPG),以在第一个迭代阶段提供更好的初始proposal boxesproposal features。与固定proposal相比,DPG可以聚合多个与样本相关的并行Proposal Experts,输出动态proposal进行推理。作者将该方法命名为Dynamic Sparse R-CNNDynamic Sparse R-CNN在 COCO 2017 验证集上达到了最先进的 47.2% AP,在相同的ResNet-50 Backbone下相对Sparse R-CNN提升了 2.2% AP。

主要贡献:

  1. 指出在基于Transformer的检测中,多对一标签分配一对一标签分配更合理有效。将最优输运分配方法应用到Sparse R-CNN中,并在迭代阶段将逐渐增加的正样本分配给 GTs。
  1. 设计了一个动态proposal生成机制来学习多个Proposal Experts,并将他们组合起来生成动态proposal和特征进行推理。
  1. 将这两种动态设计集成到Sparse R-CNN中,得到的Dynamic Sparse R-CNN检测器,获得了 2.2% 的 AP 增益,使用 ResNet-50 Backbone 在 COCO 验证集上达到了最先进的 47.2% AP。

2 相关工作

2.1 General Object Detection

基于CNN的检测器由于各种特征提取BackbonePipeline设计的发展而取得了很大的进展。
One-Stage检测器可以直接预测给定图像中物体的位置和相关类别,而不需要区域建议和细化组件,包括Anchor-Base检测器和Anchor-Free检测器。
Two-Stage检测器首先用区域建议网络 (RPN) 生成固定数量的前景proposal,然后将proposal传递给检测网络,以细化目标的位置和类别。
最近,基于Transformer的检测器利用Transformer编码器和解码器的体系结构,将目标检测重新表述为一个集合预测问题。他们设计了少量的可学习的目标查询来建模目标和全局图像上下文之间的关系,并得到了很好的性能。解码器中的目标查询是 DETR 的必需组件。条件DETR提出了一种快速训练收敛的条件空间查询方法。AnchorDETR提出了一种基于Anchor的查询设计,并以较少的训练时间实现了接近于DETR的性能。Sparse R-CNN提出R-CNN中可学习的建议框和建议特征,并将特征图上提取的RoI特征和相关的建议特征传递到迭代结构(即动态头)进行预测。

2.2 Label Assignment

标签分配在目标检测器中占有重要地位。Anchor检测器通常采用一定阈值的IoU作为赋值标准。例如,RetinaNet将 IoU 得分高于 0.5 的Anchor定义为正样本,其他定义为负样本。YOLO只采用与Ground truth相关联的最大 IoU 得分的Anchor作为正样本,这种标签分配是一种一对一匹配的方法。
Anchor-Free检测器将Ground truth中心点或缩小的中心区域定义为正的,将其他区域定义为负的。ATSS表明,Anchor-base检测器与菲Anchor-base检测器的本质区别在于标签分配,于是提出了一种自适应训练样本选择方法,根据目标的统计特征划分正样本和负样本。PAA提出了一种基于正、负样本联合损失分布为高斯分布的概率Anchor分配方法。OTA通过定义Ground truthbackground供应者,定义Anchor需求者,将标签分配定义为一个最优运输问题,然后利用Sinkhorn-Knopp迭代对问题进行高效优化。
基于Transformer的检测器将目标检测视为集合预测问题,并将Ground truth和目标查询之间的标签分配视为双边匹配。匈牙利算法通过最小化全局损失来优化Ground truth与目标查询之间的一对一匹配。在本文中,假设了基于Transformer的检测器中一对一的标签分配是次优的,并探索了一种基于OTASparse R-CNN多对一匹配动态标签分配

2.3 Dynamic Convolution

动态卷积是一种动态结合多个卷积核与可学习的样本相关权值的技术,以增强模型表示能力的技术。Softmax中的Temperature annealing有助于提高训练效率和最终性能。CondConv提出了有条件的参数化卷积,它为每个输入图像学习专门的卷积核。它将多个卷积核与子网生成的权值相结合,构造了一个图像指定的卷积核。DyNet设计了几种基于动态卷积的动态卷积神经网络,包括Dy-MobileNetDy-ShuffleNetDy-ResNet网络等。
在本工作中,分析了Sparse R-CNN中对推理过程中不同输入的固定建议框和特征是次优的和不灵活的。基于动态卷积,通过在推理过程中生成动态样本相关的建议来改进Sparse R-CNN

3Dynamic Sparse R-CNN

3.1 回顾 Sparse R-CNN

Sparse R-CNN是一个比较强的目标检测Baseline,通过对稀疏可学习目标建议进行预测,然后再使用一个迭代结构(即dynamic head)来逐步完善预测。每个迭代阶段的输入由 3 个部分组成:
  • Backbone 提取的 FPN 特征
  • Proposal BoxesProposal Features
  • 输出包括预测的 box、相应的类以及目标特征
将一个阶段输出的预测框和目标特征分别用作下一阶段的改进Proposal BoxesProposal FeaturesProposal Boxes是一组固定的区域建议 (Np×4),指定目标的潜在位置。Proposal Features是潜在向量 (Np×C),以编码实例特征(例如,姿态和形状)。
Sparse R-CNN中,Proposal Boxes在训练期间学习并固定用于推理。Proposal Boxes应用基于 Set 的损失对预测和Ground truth进行双边匹配,与匈牙利算法的一对一匹配。下图明了Sparse R-CNN的设计。
notion image
 
作者分析了Sparse R-CNN的 2 个主要局限性:
  1. 首先,Sparse R-CNN采用检测预测与Ground truth一对一匹配的方法,这种方法容易出现次优,训练效率低。
  1. 其次,Ground truth中学习到的Proposal BoxesProposal Features代表了训练集的统计量,它们对特定的测试图像不具有自适应性。
在本文的工作中,设计了 2 个方案来改进Sparse R-CNN。分别是:
  • Dynamic Label Assignment
  • Dynamic Proposal Generation

3.2 Dynamic Label Assignment

Sparse R-CNN中,使用匈牙利算法进行一对一匹配,即每个Ground truth与一个预测框匹配。假设这种一对一匹配可能不是最优的。给Ground truth分配多个预测框可以更有效地优化Proposal,促进检测器的训练。
为了实现多对一匹配,遵循基于CNN的方法,并将最优传输分配(OTA) 应用于Transformer。具体来说,OTA是一个探索如何将检测框与Ground truth相匹配的公式。该公式将Ground truth作为供应者提供分配配额,将检测框作为需求方寻求分配。背景类也被定义为提供默认赋值的供应者。
数学上,假设在一幅图像中有 Ground truth,每个Ground truth都提供了 的赋值,这些赋值称为units 个检测框中的每一个尝试得到一个units,成功的匹配称为positive assignment。背景提供了 units来满足没有分配任何Ground truth的检测框,这称为negative assignments。优化目标可定义为:
其中,Ground truth的编号, 是检测框的编号 是一个平衡分类和回归损失的系数。每个positive assignment的代价是分类损失 和回归损失 的总和,而每个negative assignments的代价只是分类损失 表示Ground truth 和检测框 之间需要优化的匹配结果。
每个供应者提供的units数量 可以是固定的或动态的。根据OTA中的动态 估计方法,本文的工作基于预测和Ground truthIoU 值汇总作为 值的估计。在该策略中,选择每个Ground truthTop-q IoU值,并将其求和作为 值的估计。
如果总体预测得越准确, 那么应该增多作为正样本的数量
基于标签分配的最优传输理论 ( ),每个Proposal(即需求方)只需要Ground truth(即供应方)提供的一个units标签单元。
因此,一个Proposal将不会被分配给不同的Ground truth。动态估计方法一般适用于 。假设 是 Ground truth 的数量, 是总Proposal的数量,如果 ,将为每个Ground truth减少 个相同的比例因子,以确保至少有 positive assignment
意为一个 Proposal只能对应一个 gt 意为一个 gt 对应 Proposal 意为gt和背景总共匹配 Proposal, 意为第 gt与第 Proposal相匹配

units增加策略

Sparse R-CNN采用了迭代架构,逐步提高预测精度。作者提出了一种简单的units递增策略来促进迭代结构的训练。当前期Dynamic head的预测不够准确时,希望供应方 (Ground truth) 提供少量的units,这使得匹配更加严格。当后期Dynamic head的预测越来越准确时,逐渐放松约束,让供应方 (Ground truth) 提供更多的units进行匹配。
简单的units增加策略可以定义如下:
在本文中使用默认的迭代阶段数 (T=6)。

3.3 Dynamic Proposal Generation

Sparse R-CNN中,将一组Proposal BoxesProposal Features连同从 FPN Backbone( ) 所提取的特征一起送入Dynamic head。这些Proposal在训练期间是可学习的,但在推断期间是固定的。在动态卷积的驱动下,针对输入图像生成Proposal BoxesProposal Features可以提高检测的性能。
图 3
图 3
在图 3(a),Proposal BoxesProposal Features 个不同的Proposal BoxesProposal Features集的线性组合,每个集合被称为一个Experts。由Experts权重生成网络生成组合Experts的系数 (称为expert weight)(图 3(b))。DPG 模块可以制定如下。
其中为输出的Dynamic Proposal Boxes为输出的Dynamic Proposal Featuresexpert weight生成网络 学习到的Proposal expert weight 为从 FPN Backbone( ) 所提取的特征。

Staircase Structure

expert weight生成网络遵循动态卷积结构的基本设计,如图 3(b) 所示还使用了 softmax 中的temperature annealing operation (tao)来控制expert weight,使训练过程更加有效。
作者还构造了一个Staircase Structure来聚集来自不同金字塔层的特征。 的特征在尺度上是依次下降的: 的宽和高是 的 1/2。
最后,将连接的数据插值到一个 特征图 (每个金字塔层的 ) 中。然后,将 通道通过求和进行融合,得到的 特征图被 Flatten 个 FC 层。第 个 FC 的尺寸是 ,第 2 个的尺寸是 。这里作者构建了 (expert数量),Proposal BoxesProposal Features数量)。
才4个?

4 实验

4.1 消融实验

notion image

1、不同匹配器的影响

notion image
如表 3 所示,具有固定 值 () 的OTA匹配器Baseline相比,AP 的提升率为 0.9% AP。在动态 估计中使用 OTA匹配器增加了 1.1% AP,这证明了使用动态 k 的有效性。
units增加策略进一步将 AP 提高到 46.7% AP,说明这种简单的设计是有效的。
此外,具有 units增加策略的OTA匹配器 AP75 和 APs 都增加了近 3 个百分点。可见动态多对一匹配方案产生了更多样化的预测框选项,以匹配Ground truth。该方案特别适用于对小物体的检测。

2、q 的影响

notion image
如表 4 所示,在 Dynamic k Estimation 中尝试了 的不同选择,发现 效果最好。值得注意的是,表 4 中的所有结果都优于一对一匹配 (45.0%),这验证了动态多对一匹配方案的有效性。

3、Experts 数量的影响

notion image
如表 5 所示尝试了不同数量的 Experts,并在该方法中使用 4 个 Experts 作为默认值可以得到最好的性能。
所以不解释两句Expert数量这么少的原因吗? 瞎扯两句丫 好歹

4、可视化

notion image
图 4 可视化了通过Dynamic Sparse R-CNN进行的采样检测结果。Dynamic Sparse R-CNN可以正确地检测不同尺度、外观等的目标。

4.2 SOTA 对比

notion image

© Lazurite 2021 - 2024