Sparse R-CNN阅读笔记
date
Oct 6, 2021
Last edited time
Mar 27, 2023 09:03 AM
status
Published
slug
Sparse_R-CNN阅读笔记
tags
DL
CV
summary
这个是我参加MAC实验室考核的时候报告的小结, 整理了一下发布出来
type
Post
Field
Plat
Background and motivation
- 当前阶段的目标检测方式
- 当前方式的限制
- 后处理—非极大值抑制 NMS
- 需要对密集的检测框进行正负样本标定 many-to-one label assignment problem
- 依赖anchor box 的预设值, 和 proposal generate algorithm
现阶段的目标检测方式(包括一阶段和二阶段方法)都依赖于密集的目标候选框.
- 检测方式的分类
- Dense method
- Dense-to-Sparse method
- Sparce method
一阶段的检测模型, YOLO, SSD, OverFeat
每一个密集定义的anchor box都被分类以及回归. 需要非极大值抑制
一些二阶段的检测模型 R-CNN, faster R-CNN
从密集的region canditates 选择出部分进行分类和回归.
DETR 是最近提出的检测方式, 使用了匈牙利算法()直接输出结果, 而无需NMS. 但是: DETR 需要 所以作者认为这也是一种 Dense-to-sparse 方式
现有的方法, 比如G-CNN. 但是表现效果不是很好.
- 目的
the central idea of Sparse R-CNN framwork is to replace huundreds of thousands candidates from Region Proposal Networks with a small set of proposal boxes.
所以这篇文章目的在于提出一个完全稀疏的目标检测方式, 同时解决上述当前方式的一些限制.
Method
- Sparse R-CNN的组成
- backbone network
- dynamic instance interactive head
- two task-specific prediction layer
- 关键技术
- 使用 Learnable proposal box
- 使用 Learnable proposal feature
- Dynamic instance interactive head
- iteration structure
- set prediction loss
使用 N 个固定数量的 proposal box (四维向量)来作为可以学习的参数, 可以看作是训练集中潜在物体位置的统计数据, 是非常粗糙的估计. 同时这与输入的图像无关
这篇文章使用了 proposal box 来替代 R-CNN 中的 selective search 和 faster R-CNN 中的 Region proposal Network.
是一个高维的向量(256维), 与 proposal box一一对应, 同时也是可以学习的参数. 因为proposal box 只能提供一个粗略的物体定位, 而没有细节信息. 同时, 不需要像 DETR 里的空间位置编码
对于给定的N个proposal box 进行 RoIAlign (如 faster R-CNN 里的RoIPooling)操作后, 得到 RoI features. 然后, 对N个 RoI features 和 Proposal features 实现交互, 最后得到输出的分类和 新的box
这个模块的 proposal feature 可以看作是一种 attention 机制的实现,
使用了迭代的结构来提上性能. 将新生成的 object box 和 object features 作为下一步输入的 proposal box 和 proposal features.
Sparse R-CNN 使用了 set prediction loss. 绕过了多对一匹配问题, 引入了基于集合的一对一匹配.
Result
Sparse R-CNN 展示出了与成熟检测器基线相同的准确性, 运行时间, 和训练收敛性能.
数据集: COCO数据集
Backbone: ResNet-50 FPN
Training Epochs: 3x schedule
效果: 44.5AP 22fps