Instances as Queries 论文阅读

date

Jun 30, 2022

Last edited time

Sep 20, 2022 09:44 AM

status

Published

slug

QueryInst

tags

summary

差不多就是sparse rcnn加了一个mask head

type

Post

origin

https://www.notion.so/lazurite/Instances-as-Queries-0eb062dd42024218ba88fd6f63b22bca

Field

Plat

1. 总述 2. 算法结构 2.1 Backbone 2.2 Query based Object Detector 2.2.1 Query Embedding Init 2.2.2 bbox & cls 预测 2.2.3 2.3 Mask Head Architecture 2.4 Comparisons with Cascade Mask R-CNN and HTC 3. 实验结果

实例分割新作--Instances as Queries_Nick Blog的博客-CSDN博客_instances

最近整理Transformer和set prediction相关的检测&实例分割文章，感兴趣的可以跟一下： DETR: End-to-End Object Detection with Transformers Deformable DETR Rethinking Transformer-based Set Prediction for Object Detection Instances as Queries SOLQ: Segmenting Objects by Learning Queries Bin 本文提出一种机遇query的实例分割方法，其中已经没有了Transformer的结构（仅保留了Multi-head attention模块），只是保留了DETR中的随机初始化N个object queries和匈牙利匹配损失函数。同时，本文类似于Cascade RCNN设计了一种多阶段迭代优化的bbox和mask预测头，但是不同于Cascade RCNN 每次在下一阶段以更高IoU阈值进行重采样，本文的多个阶段的N个queries均是一一对应的，即第一个query slot在每个阶段均用来预测同样的目标。 ResNet50+FPN输出C2, C3, C4, C5四个分辨率的特征，比如[(B, 256, 200, 200), (B, 256, 100, 100), (B, 256, 50, 50),

https://blog.csdn.net/xijuezhu8128/article/details/118675968

Instances as Queries

Recently, query based object detection frameworks achieve comparable performance with previous state-of-the-art object detectors. However, how to fully leverage such frameworks to perform instance segmentation remains an open problem. In this paper, we present QueryInst (Instances as Queries), a query based instance segmentation method driven by parallel supervision on dynamic mask heads.

https://arxiv.org/abs/2105.01928

2105.01928.pdf

4451.2KB

GitHub - hustvl/QueryInst: Instances as Queries (ICCV 2021)

News] Apr, 2022: If you like QueryInst for instance segmentation, you might also like TeViT (CVPR 2022, oral, paper / code & models) for high-performance video instance segmentation!. Oct, 2021: QueryInst (ICCV 2021) is now officially included by mmdetection library, with new checkpoints, corresponding logs, and augmented training settings.

https://github.com/hustvl/QueryInst

1. 总述

本文提出一种基于 query 的实例分割方法，其中已经没有了 Transformer 的结构（仅保留了 Multi-head attention 模块），只是保留了 DETR 中的随机初始化 N 个 object queries 和匈牙利匹配损失函数。

同时，本文类似于 Cascade RCNN 设计了一种多阶段迭代优化的 bbox 和 mask 预测头，但是不同于 Cascade RCNN 每次在下一阶段以更高 IoU 阈值进行重采样，本文的多个阶段的 N 个 queries 均是一一对应的，即第一个 query slot 在每个阶段均用来预测同样的目标。

2. 算法结构

2.1 Backbone

ResNet50+FPN 输出 C2, C3, C4, C5 四个分辨率的特征，比如 [(B, 256, 200, 200), (B, 256, 100, 100), (B, 256, 50, 50), (B, 256, 25, 25)]。

2.2 Query based Object Detector

2.2.1 Query Embedding Init

此处采用 nn.Embedding 初始化 N 个 object 的 queries bbox 和 queries features，并将初始化的 bbox 解码为原始尺寸的 bbox 表达。

2.2.2 bbox & cls 预测

由于 QueryInst 是多阶段的 bbox 和 mask 预测，我们先以第一阶段预测为例讲述：

如上图所示，

代表 FPN 输出的多分辨率特征图；

代表上一阶段的 bbox 预测；

代表 ROI Align 操作；

代表 ROI Align 得到的 7*7 的 bbox feature；

表示上一阶段的 object query；

表示当前阶段的 multi-head self-attention；

代表 transformed query；

代表经过增强后的 bbox feature；

代表由 FFN 构成的 bbox 预测分支；

代表当前 bbox 预测结果；

那么，上述的公式流程就代表，给定上一阶段的 bbox 预测结果和 object query ，首先通过 ROI Align 操作从 FPN 特征图提取 bbox 特征；随后利用 multi-head self-attention 计算 transformed object query ；随后利用 object query 和 bbox feature 之间的动态卷积得到增强后的 bbox feature 和 object query；紧接着在其基础上进行 bbox 预测和 cls 预测。

2.2.3

这里是的示意图，与其一致。具体来讲，给定 transformed object query 和 ROI Align 得到的 bbox feature ，首先利用一个全连接层对 object query 进行映射得到两组 1*1 卷积参数，进而使用这两组卷积参数对 bbox feature 进行卷积得到输出，最后将其 reshape 为再进行通道降维得到输出后的 object query 。

此处在上面的公式中，输出了两个变量和。

2.3 Mask Head Architecture

此处仅介绍论文中的 Dynamic Mask Head，先看下面的几行公示，其与上一小节中的 bbox head 几乎一致，只不过缺少了 . 这一步，从上图中可以看到这是因为 bbox 和 mask 在每个阶段共用 MSA。

代表 ROI Align 得到的 7*7 的 mask feature；

代表 transformed query；

代表经过增强后的 mask feature；

代表由 convs 构成的 mask 预测分支；

代表当前阶段 mask 预测结果；

上面的与主要结构都是一样的，不过其最后直接输出的特征图，而不需要 mask 的空间信息，所以多了一步 reshape & 降维的操作。

2.4 Comparisons with Cascade Mask R-CNN and HTC

对于 Cascade Mask R-CNN 和 HTC，在统计意义上细化了不同阶段 proposal 的质量。对于每个阶段，训练样本的数量和分布都有很大的不同，在不同阶段中，每个单独的 proposal 没有明确的内在对应。

对于 QueryInst，各个阶段之间的连接是通过 query 中固有的一一对应自然建立的。这种方法消除了显式多阶段 mask head 连接和 proposal 分布不一致的问题。

3. 实验结果

For inference, we use the final stage masks as the predictions and ignore all the parallel DynConv mask at the intermediate stages.