Deformable DETR

date
May 1, 2022
Last edited time
Mar 27, 2023 08:49 AM
status
Published
slug
DeformableDETR
tags
DL
CV
summary
type
Post
Field
Plat

Introduce

  • DETR 存在的问题
    • notion image
      1. 训练周期长,相比 faster rcnn 慢 10-20 倍
      1. DETR在检测小物体方面的性能相对较低。通常用多尺度特征来解小目标,然而高分辨率的特征图大大提高 DETR 复杂度
  • 存在上述问题的原因
      1. 初始化时,attention model 对于特征图上所有像素权重几乎是统一的(即一个 query 与所有的 k 相乘的贡献图比较均匀,也即 均匀分布,然而理想结果是 q 与高度相关且稀疏的 k 相关性更强),导致需要用长训练周期学习去关注稀疏有意义的位置,即学习 attention map 前后显著的变化
      1. 处理高分辨率特征存在计算两大,存储复杂的特点。Transformer编码器的注意力权重计算复杂度是以像素数的平方倍。
  • Motivation 让 encoder 初始化的权重不再是统一分布,即不再与所有 key 计算相似度,而是与更有意义的 key 计算相似度。deformable convolution 就是一种有效关注稀疏空间定位的方式。随即提出 deformable detr,融合 deformable conv 的稀疏空间采样与 transformer 相关性建模能力。在整体 feature map 像素中,模型关注小序列的采样位置作为预滤波,作为 key
notion image
  • 论文方法概述
      1. 提出了 Deformable DETR,它可以缓解 DETR 收敛速度慢和复杂度高的问题。它融合了可变形卷积良好的稀疏空间采样能力和 transformer 的强大关系建模能力;
      1. 提出了可变形注意模块,它考虑到一个小的采样位置集合作为一个预先过滤器突出关键元素的所有特征图像素。该模块可以自然地扩展到聚合多尺度特征,而无需 FPN 的帮助;
      1. 探索了一种简单有效的迭代边界框细化机制来提高检测性能;
      1. 尝试了 two-stage 的 Deformable DETR;
      1. 在 COCO 数据集上的广泛实验证明了方法的有效性;

Deformable Attention

notion image

Deformable Attention Module

将 Transformer 注意力应用到图像特征图上的核心问题是,它将查看所有可能的空间位置。为了解决这个问题,我们提出一个可形变注意力模块。受可形变卷积的启发,可变形注意模块只关心参考点周围的一小组关键采样点,而不考虑特征图的空间大小。通过为每个查询分配少量固定数量的键,可以缓解收敛性和特征空间分辨率问题。
给定一个输入特征图 ,使 为上下文特征 的查询元素, 为一个二维参考点,可变形注意力特征可以通过以下方式计算:
论文中给出的原版多头注意力公式为:
notion image
  • 其中位置偏移 是可学习的,由 query feature 经过全连接层得到。
  • self-attention注意力权重 并归一化使得 Deformable Attention 这里的注意力权重为直接使用 query feature 经过全连接层得到。
    • 在实现中,查询特征 被馈送到 通道的线性投影算子,其中前 通道对采样偏移量 进行编码,其余 通道被馈送到 softmax 算子以获得注意力权重
  • 每个 query feature 在每个头部中采样 个位置,只需和这些位置的特征交互 代表基于采样点位置插值出来的 value)

Deformable Attentionself-attention 的不同点

  1. self-attention 是全局特征作为 key 值,Deformable Attention是在每个点附近自主学习 key 值。
  1. self-attention 中的权重是 keyqueries 对的关系刻画,比如内积等,Deformable Attention则是直接由线性层获得。

Deformable Attentiondeformable cnn的不同点

  1. deformable cnn 是在正常的 cnn kernel 点上分别预测偏移量,Deformable Attention 则是在当前一个点上直接预测多个偏移量。

Multi-scale Deformable Attention Module

大多数现存的目标检测框架受益于多尺度特征图。我们设计的可形变注意力模块可以很自然的扩展到多尺度特征图。
使 为多尺度特征图的输入,其中 。使 为每个查询元素 中参考点的归一化坐标,然后多尺度可形变注意力模块为:
notion image
多尺度可变形注意力与之前的单尺度版本非常相似,只是它从多尺度特征图中采样 点,而不是从单尺度特征图中采样 点。
FPN中的自上而下结构没有被使用,因为多尺度可变形注意力本身就可以在多尺度特征图之间交换信息。 附录A.2中也说明了多尺度特征图的构建。第5.2节的实验表明,添加FPN不会提高性能。

Deformable DETR 模型结构

notion image
我们用提出的多尺度可变形注意模块替换了 DETR 中处理特征图的 Transformer 注意模块,即encoder部分。
DETR 的 Transformer 注意模块:
notion image
DETR 模型结构:
notion image

一些额外的改进

迭代边界框细化机制

这是受光流估计中开发的迭代精华的启发。为了提高检测性能,作者建立了一种简单有效的迭代边界盒细化机制。每个解码器层基于来自前一层的预测来细化边界框。
参考:多层LK光流。在 SLAM初学-视觉里程计(二)有写

两阶段 Deformable DETR

在原始 DETR 中,解码器中的对象查询与当前图像无关。受两阶段目标检测器的启发,作者探索了一种变形 DETR 的变体,作为第一阶段生成区域 (proposal) 建议。生成的区域建议将作为对象查询输入解码器进行进一步细化,形成两阶段可变性 DETR。

实验结果

notion image
notion image
 

© Lazurite 2021 - 2024