ICCV&NIPS2019 物体检测之scale问题

2012 年 7 月 29 日

加入极市专业CV交流群，与 6000+来自腾讯，华为，百度，北大，清华，中科院 等名企名校视觉开发者互动交流！更有机会与 李开复老师 等大牛群内互动！

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。关注 极市平台 公众号，回复 加群， 立刻申请入群~

作者：孙明

来源：https://zhuanlan.zhihu.com/p/83310317

本文已经作者授权，转载请联系原作者

在这里介绍一下最近做的两篇关于物体检测的论文，主要解决的问题是scale，前提是不牺牲测试速度。论文地址分别是：

https://arxiv.org/pdf/1909.02225.pdf

（1）通过learning方式学习dilation

https://arxiv.org/pdf/1909.02293.pdf

(2)通过automl的方式搜索dilation

（一）问题

检测里面scale变化非常大，其中我认为解决比较好的方案之一是deformable，通过局部密集采样方式，自适应其变化。但是这用解决问题的方式带来的问题是，速度非常慢，且很难加速。

（二）分析

我们自己重新分解了一下deformable中学习的局部不规则9个采样点，可以把这9个点的变换分解成中心点的偏移，整个矩形框面积的变换，以及局部形状的变换。发现其中最核心的变化是矩形框的面积，而不是矩形框的形状和中心点。这个也很好理解，矩形框的面积改变的是感受野，矩形框的边缘是感受形状信息。

换句话说，采样的矩形框自由度不需要那么高（不规则），是个矩形就行。什么操作可以改变采样矩形框且不影响速度呢？ dilation就行。 这个是我们做的第一步分解，使得局部操作可以加速。

但是第二个问题是，这种局部的密集采样还是非常慢的。能不能舍弃这种做法？空间的密集目的是想特征抽取的更好，也就是output特征更好。但是output特征除了在采样数据那边做，也可以在卷积核上做。为了速度，我们做了第二步分解，我们把空间的多样性，分解到卷积核上。 具体做法是，分组。 不同的分组，采用不同的dilation。 最后的特征，对于每个ROI而言，也能看到更大的特征。

（三）浮点的dilation + group

找到了这两步，基本就能解决要解决的问题，局部ROI需要更丰富的特征并不增加耗时。具体的解法可以看论文。试验结果

（四）进阶版

实际细想就是两个超参，每个卷积的dilation数值和group的分组数。学习的方式难免有局限，得益于强大的搜索算法，我们直接搜索了这两个超参，也算是比较早直接在channel 级别搜索的论文，具体可以看我们的NIPS论文。

（五）展望

一切的前提都是速度不变情况下，如何解决问题。这个scale问题还远远没有解决，最近我们也有了新的解法，近期也会放出来。当然除了这个问题，检测还有很多问题。比如检测和分类的NAS有何不同？硬核问题太多了。

-End-

*延伸阅读

目标检测交流群

添加极市小助手微信 （ID : cv-mart） ，备注： 研究方向-姓名-学校/公司-城市 （如：目标检测-小极-北大-深圳），即可进群。（已经添加小助手的好友直接私信）

△长按添加极市小助手

其他方向如目标跟踪、人脸、工业检测、医学影像、三维&SLAM、 图像分割 等，也 可扫码添加极市小助手拉你进群， 更有每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流，一起来让思想之光照的更远吧~

△长按关注极市平台

觉得有用麻烦给个在看啦~

M	T	W	T	F	S	S
« Jan
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

演道网

ICCV&NIPS2019 物体检测之scale问题

活动 | 加入极市原创作者行列，实现一个小目标

目标检测交流群

About The Author

peace

活动 | 加入极市原创作者行列，实现一个小目标

目标检测交流群

Related Posts

About The Author

peace