伦敦帝国学院提出局部特征提取新模式D2D：先描述后检测

2016 年 1 月 19 日

跟大家分享一篇前天新出的非常有意思也有启发的论文 D2D: Keypoint Extraction with Describe to Detect Approach ，该文研究的内容是局部特征提取，在图像匹配、SLAM、三维重建等领域均显示出了性能提升。

该文作者信息：

作者来自伦敦帝国学院和Scape Technologies公司。

提到局部特征提取，传统方法如SIFT等往往是先检测关键点，然后以关键点为中心计算特征描述，近年来出现了一些检测和描述联合计算的方法，如 SuperPoint、 D2-Net 、 R2D2等，如下图：

作者认为特征描述部分本就含有巨大信息量，本身就能代表着某个位置像素的显著程度，为什么不先计算得到大量的密集特征描述再从中筛选关键点呢？这话听起来很有道理，所以作者的核心思想是：先描述后检测，这可以大大简化局部特征提取的流程。

密集特征提取并不是新鲜事物，有大量的传统方法和深度学习方法可供使用，能够得到大量不同种类的密集特征，关键是：如何衡量某特征向量描述的显著性？

作者从两个角度来思考这个问题：

1）特征描述要具有绝对显著性，指某位置的特征各维度特征变化大；

作者以特征各维度与均值的平方差来衡量绝对显著性。

2）特征描述要具有相对显著性，指某位置的特征与其周围临近点的特征相比差异性更大；

作者以某特征与临近位置特征的距离之加权和来衡量。

以绝对显著性和相对显著性之积作为某位置是否为关键点的依据，选取Top N个作为最终的关键点。

实验结果

作者的这个思路很简单，也很容易与图像的密集描述特征结合，作者在图像匹配、视觉定位、三维重建三个任务中评价了这种方法

图像匹配的实验结果：

HarNet 和SOSNet 是作者使用的描述方法。在HPatches数据集上的结果显示，使用D2D的方法超越了之前几种SOTA方法，正确配对的关键点更多。

下图为在Aachen Day-Night 数据集上的视觉定位结果，D2D在替换SIFT关键点检测之后大大提高了精度，虽然与最好结果还有一定差距，但这可能是训练数据和使用网络较小的差异造成的。

在ETH SfM数据集上三维重建的实验结果：

使用窄网络D2D的精度显著超越了那些在大数据集上训练的局部特征提取方法的结果。

D2D因为简单，所以速度也很快，使用 HardNet 或者SOSNet作为描述的话参数量也很小，如下图：

总之，D2D打开了一种新思路，特征描述本身就含有关键点的重要性信息，可以作为关键点筛选的依据（我为什么之前没想到呢。。。）

应该说D2D本身不是一种算法，而是一类局部特征提取模式。这项工作还有很多值得探索，比如使用什么样的描述方法更好、有没有更好的筛选策略？相信会启发更多的工作，欢迎大家follow！

论文地址：

https://arxiv.org/pdf/2005.13605.pdf

目前还未发现有开源代码。

关注三维重建、图像匹配等最新资讯，若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

网站:www.52cv.net

在看，让更多人看到

演道网