自动驾驶中采用地面先验知识的单目3D目标检测方法

2021年2月1日arXiv上传论文”Ground-aware Monocular 3D Object Detection for Autonomous Driving”, 作者来自香港科技大学和城市大学。

本文确认驾驶地面假设做深度估计的附加线索,基于此改善3D锚点的滤波方法,引入一种新神经网络模块,在深度学习的框架中充分利用该先验条件,并用于3-D目标检测。该代码将发布在 https://www. github.com/Owen-Liuyuxu an/visualDet3D

一个目标锚点形状和大小和深度紧密相关。同时,锚点的深度方差和目标图像大小成反比。如图是透视几何关系:地面假设是存在和成立

这里可以计算锚点3-D位置如下

深度和目标地面高度的关系如下:

假设已知 摄像头离地高度 EL,由此计算深度如下

假设一个虚拟双目基线,则可以得到深度对应的视差(类似inverse depth):

这样保证了深度的连续性和一致性。

受CoordinateConv思想的激励,把深度看作是与基本特征图相同空间大小的附加特征图。 假设特征图的每个element都落在地面上,则可通过深度先验知识对其编码。

特征图的每个点可以好像是目标中心一样,预测其offset如下

Ground-Aware Convolution (GAC)Module如图所示:

Ground-aware convolution 模块模拟人类如何在深度感知中利用地面假设,提取几何先验知识和特征。同时,在先验知识和目标(target)之间预测深度残差,它可差分,端到端可训练。其旨在引导目标(object)中心提取特征并从接触点推断深度。

整个目标检测网络推理结构如图所示:

而训练中采用focal loss做目标分类,smoothed-L1做边框回归。

后期优化采用扰动观测角度和深度值对IoU最大化。

深度估计模型训练采用scale-invariant (SI) loss 和 smoothness loss。

实验结果比较:目标检测和深度估计

实验中发现anchor滤波抹去了负锚点一半,故此做实验和Online Hard Example Mining (OHEM)比较,如表:

上表中,另外GAC也和deformable convolution做了比较。