ICCV 2019:航拍图像中行人像素小、目标稀疏不均匀怎么破?
航空图像中的目标检测主要面临以下两个挑战: (1)像行人这样的目标在图片中所占像素小,使其很难与周围背景分开。 (2)目标通常稀疏且分布不均匀,因此检测效率很低。
这篇论文探讨这两个问题,灵感来自于观察到航空图像中的目标通常是聚集的。 论文提出了一个将目标聚类和检测结合起来的端到端的聚类检测框架(ClusDet)。 ClusDet中的关键组成部位包含一个簇提议网络(CPNet),一个尺度估计网络(ScaleNet),和一个专用检测网络(DetecNet)。 给一张输入图像,CPNet产生目标簇区域,ScaleNet估计簇区域的目标尺度。 然后,每个尺度归一化的簇区域输入到DectecNet中进行目标检测。
相比于以前的解决方法,ClusDet有如下优点: (1)很大程度上减少了用于最终检测的分块数并获得了很好的运行时间效率。 (2)基于簇的尺度估计比之前基于单个物体的方法更准确。 (3)最终的检测网络专门用于簇区域,隐式地对先验上下文信息进行建模,以提高检测精度。
该方法在VisDrone、UAVDT和DOTA三个常用航空影像数据集上进行了测试。 代码将开源在: https://github.com/fyangneil 。
1. 研究背景
近年来一些先进的目标检测器如Faster-RCNN,SSD,YOLO等已经在自然图像上(例如MS COCO数据集)取得了重大成果。但这些检测器在处理航空影像时速度和精度方面均效果不佳。主要是因为以下两点原因:
(1)目标相对原图来说尺度很小;
(2)目标通常稀疏且不均匀地分布在整个图像中。
所以,现代目标检测器很难有效的利用外观信息来区分物体与周围背景或者类似物体。
为了解决尺度问题,当前的主流方法一般是把原图分成一些小块,然后在每个小块上做检测。但由于忽视了目标的稀疏性,在检测中效率很低。在目标稀疏甚至没有目标的高分辨率图耗费了大量计算资源,如Figure 1所示。
Figure 1
我 们可以看到,在航空图像中,物体不仅稀疏、不均匀,而且在某些区域往往高度聚集。 例如,行人通常集中在广场和高速公路上的车辆。 因此,提高检测效率的一个直观方法是将检测器聚焦在这些簇区域,其中有大量的目标。
根据这一观察,论文提出了一个聚类检测网络。 通过将模板检测和聚类检测集成在一个统一的框架中来解决上述两个问题。 如Figure 2所示: