Waymo 新作: 端到端多角度融合的 3D 点云目标检测
date
Apr 1, 2022
Last edited time
Mar 27, 2023 09:02 AM
status
Published
slug
Waymo新作:端到端多角度融合的3D点云目标检测
tags
DL
CV
3D
summary
转载
type
Post
origin
Field
Plat
End-to-End Multi-View Fusion for 3D Object Detection in LiDAR Point Clouds
本文是 VoxelNet 作者 Yin Zhou 对于 VoxelNet 的既有问题提出的改善方法,其核心思想是透过 原有的两个角度 (BEV 与 perspective) 的体素特征融合,改善传统体素化的缺点。虽然未能够刷榜 Kitti,但方法颇具启发性,对于 voxel 缺陷整理得较好,后续 voxel 系列的 3D 目标检测,皆能够应用类似方法,进一步提升精度。
摘要
近期的 3D 点云目标检测中许多方法透过体素化 (voxelization) 的方式将点云进行切割,并用特征提取器将体素内点云进行特征提取,将无序点云变成有序的体素特征,接下来则能回归成 2D 点云的目标检测过程。而在这过程中,将点云体素化过程中,不可避免的会将同个物体的点云进行切割,尤其点云在远处时的稀疏问题与小物体的点云特征不足的问题(远处的人与骑行者),容易受到这种切割方式降低最终预测精准度。
为了解决以上问题,本文提出 MVF,能够融合 BEV 与 perspective 下的体素特征,两个角度的特征各有其优缺点,融合后即能互相弥补。
具体来说,本文提出的 dynamic voxelization 比起传统的 hard voxelization 有以下四个优势:
- 不需要预设固定大小的体素化 tensor
- 解决体素格中固定点云上限,造成的点云丢失的问题
- 确定性的体素特征
- 提供点云 - 体素的双向对应关系,能够自然的将不同角度的体素进行融合
MVF 在 Waymo dataset 跟 Kitti 上做了评价,显示 MVF 能够显著超越 baseline Pointpillar。
Hard Voxelization
对于输入的点云 , 使用 Hard Voxelization 将会得到一个固定大小的输出 . 其中 是点云中点的数量, 是点的特征维度.
HV 方法一般都是预先设定 Voxel 的个数 , 每一个 Voxel 包含的点的个数 . 如果一个 Voxel 内点的个数大于设定的数量, 则会随机丢弃一些点, 如果小于设定的点数, 则补0.
定义 为点 到体素 的映射关系, 为体素 到点的集合 的映射关系.
- 缺点
- 点和体素在超出设定的容量范围之外的情况下会被丢弃, 可能会丢弃对模型来说有用的信息
- 当体素范围内的点的数量大于设定值的时候, 就会对体素里的点进行随机采样, 导致不稳定的检测结果
- 对体素进行填充导致了不必要的计算
Dynamic Voxelization
DV 与 HV 方法不同的是, DV 保留完整的点与体素的映射关系.因此,体素的数量和每个体素的点数都是动态的,取决于具体的映射函数。
DV 方法不会导致任何的信息损失, 产生的结果也是固定的, 不会因为随机采样而发生变化.
有了mapping关系之后,这些无序的点还需要组织成能使用conv操作的有序的形式,因此采用了fc+max操作的方式(max操作保证了每个voxel内特征维度的一致性),而缺失点的voxel依然需要补0(虽然文章没说,但是猜测是这么做的)。之后便采用了2d-conv(借鉴了FPN)。