IROS 2019 机器视觉全球挑战赛:赋予 AI 终生学习能力(附冠军算法模型)

点击上方“蓝字”关注“AI开发者”

近日,Lifelong Robotic Vision 挑战赛在澳门 IROS 2019 大会上成功举办。本次竞赛吸引到共 150 个参赛队,实际提交 40 个有效成绩。

多位机器人领域大咖来到现场进行特邀报告和圆桌讨论,包括:意大利技术研究院科学主任 Giorgio Metta 教授、汉堡大学张建伟教授、浙江大学章国锋教授等知名学者,演讲主题从 Lifelong Learning 算法到 SLAM 均有涉猎;同时,决赛入围团队——海康威视、新加坡南洋理工大学、香港中文大学等也在现场向大家分享了赛事算法报告,我们将赛事内容及冠军方案整理如下。

大赛背景

IEEE 智能机器人与系统国际会议(IROS)是智能机器人与自动化领域的两个顶级国际会议之一,而 IROS 2019 则是 IROS 成功举办的第 32 届会议,由全球最大的非营利性专业技术学会 IEEE、IEEE 机器人与自动化学会、IEEE 工业电子学会、日本机器人学会、仪器与控制工程师学会以及新技术基金会联合赞助。

大会期间,约 4000 名来自世界各地的机器人、自动化系统及人工智能等领域的领军人物、顶尖研究团队代表及企业界人士齐聚澳门,共同探索智能机器人与系统领域的前沿科技,并分享并讨论相关领域的最新进展。

IROS 2019 包括了主题演讲、技术报告、研讨会、竞赛、论坛和展览等多个部分。其中,终生机器视觉数据集全球挑战赛则属于 IROS 2019 竞赛环节,其中 Lifelong/Continual Learning for Object Recognition 是其中一个 Channel 的比赛。

解读 Lifelong/Continual Learning

本次挑战赛将目光聚焦于机器视觉前沿领域,旨在通过比赛探索,赋予 AI 终生学习能力。其中,终生学习能力于人类而言,则是持续从环境和经验中学习知识和技能;于机器人而言,则是以适应变化的环境和任务终生学习能力 ;而于计算机视觉,则需要从预先建好的数据集中一次性学习。三者关系如下图所示:

   一、机器人视觉面临的挑战

近年来,计算机视觉领域发展迅速,与此同时大规模数据集如 ImageNet、COCO 等的进展使得基于深度学习的计算机视觉技术在精准度和实用性能方面得到显著提高。

目前基于大量数据集的物体检测,分割和识别的计算机视觉应用也在人脸识别、智能家居、辅助工业制造等领域做出了突出贡献。然而机器人视觉对于视觉算法的开发和落地提出了新的挑战。

通常情况下,基于深度学习的计算机视觉算法需要数据符合独立同分布 (i.i.d) 的假设,也意味着需要训练数据的任务单一化、样本分布同质化、难度统一化。

但是在机器人真实应用场景中,随着时间推移,通常呈现出任务多样性、样本分布差异大、难度多变性等特征。因此在机器人视觉应用场景中,智能体需要采取连续/终生学习 (continual/lifelong leanring) 的策略去使用环境等因素的改变。

   二、终身学习突破关键

目前,终生学习主要面临两大挑战:

  • 第一是灾难性遗忘 (catastropic forgetting) ,由此诞生了著名的稳定性-可塑性定理 (stability-plasticity dilemma)。该定理指出,一个完备稳定的模型可以保证系统学习到的旧知识不被忘记,但无法学习新知识;而一个完全可塑的模型可以充分适应新的知识领域,但是会忘却旧的知识。

基于深度学习的 Lifelong/Continual Learning 算法对比

  • 第二是概念漂移 (concept drift) ,主要是智能体所接触到数据类型不同于传统的静态数据 (static data),而是一种体量大、实时性强的流数据 (data stream)。常见的动态流数据则是不独立同分布的,随着时间的推移,智能体需要渐进地适应不同分布的流式数据。

不同类型的概念漂移(图片来源于 Block-based and Online Ensembles for Concept-drifting Data Streams, 2015. Ph.D. Thesis from Dariusz Brzeziński)

  • 第三则是模型能够自适应地改变其复杂度, 由于机器人获取的数据在动态变化,无法提前获取所有的外界数据信号 (例如机器人每天接触感知的人、物体和周围环境都在变化),所以最终运用的模型必须具备复杂度自适应可变的特点。加之概念漂移的问题,我们常常需要增加模型的复杂度来处理不同分布的数据。

数据集

   一、数据集采集

OpenLORIS-Object 数据集由若干个地面机器人模拟人类视觉采集而成,采集地点为平时活动的办公室和家庭环境,摄影部分由 Intel RealSense D435i 和 T265 组成。

在不同光照、遮挡、物体大小、相机-对象距离/角度、杂乱程度,以及不同的场景信息下,机器人主动记录目标对象的视频。数据集记录了机器人在拍摄过程中通常会面临的不同环境挑战,比如:

  • 光照  – 在实际应用中,照明会随时间变化很大,例如昼夜差异。我们的数据集主要是从正常的日光收集的,包括弱光,正常光和强光,每个占每个场景下物体的 10%。随着灯光变弱,分类任务变得更具挑战性。

  • 遮挡  – 当一个对象的一部分被一个或多个对象隐藏,或者在视场中仅显示该对象的一部分时会产生遮挡现象。由于可能隐藏了对象的独特特征,因此遮挡使分类任务更具挑战性。

  • 物体大小  – 小物体或者细长的物体,如干电池或胶棒,会使分类任务更具挑战性。

  • 相机  – 对象角度/距离 摄像机的角度会影响从对象检测到的属性,距离会影响目标物体的大小。

  • 杂乱程度  – 是指在考虑的对象附近存在其他对象。同时存在多个对象可能会干扰分类任务。

  • 场景信息  – 环境信息是学习过程中的另一个因素,例如在厨房的场景下可以提高刀、炊具等物体的识别能力。先前的大多数研究都忽略了场景信息对于上下文识别的重要性。

技术细节和数据集可参考:

Qi She et al.,「OpenLORIS-Object: A Dataset and Benchmark towards Lifelong Object Recognition」, https://arxiv.org/abs/1911.06487 

   二、数据集描述

为了使物体分类任务与日常生活场景相结合,数据在多个生活场景下采集,比如客厅、厨房、卧室等,物体的放置也考虑日常生活场景,被放置在桌面、地面、墙面、床上等。

已发布的的数据集由 69 种物体组成,包含 7 个场景下的 19 类日常必需品。每种物体被记录为 17 秒(每秒 30 帧)的视频(即共 500 帧 RGB-D 图像),由 4 个环境影响因素(包含光照,遮挡程度,目标对象的像素大小,杂乱程度),每个因素由 3 种等级控制分类任务的实现难度。见下图(基于环境影响因素,每种物体共有 12 个子类):

每个等级下的每种物体对应了 260 个样本。即:对于每种物体,总共有 3120 个样本。因此数据集共包含了: 260(样本数/种物体实例) * 69(物体实例) * 4(环境影响因素/个等级) * 3(难度等级)=215,280 个样本。

数据集概况及下载地址:

https://lifelong-robotic-vision.github.io/dataset/Data_Object-Recognition      

   三、数据集的可视化

执行物体分类任务时呈现时序一致性可提供图像信息在时间上的平滑度,从而简化目标识别的过程,改善分类准确性,更好地解决半监督(或无监督)场景。下图为随机选取的数据样本:

示例中的每列图片为目标对象所处的不同杂乱环境(从第一行到第三行分别展示简单,正常和复杂的杂乱场景),遮挡程度(0%,25%,50%),像素大小(200*200),以及光照程度(弱光,正常光,强光)。

比赛评比标准

比赛中,参赛选手不仅要考虑连续学习情境下物体识别的准确度,更要兼顾模型的大小、模型对数据量的依赖性、模型部署中的预测速度等性能。

除此之外,参赛选手还需对更具有挑战性的测试集进行采集,包括:更多物体姿态角度、光照环境和更加复杂的背景信息。具体的模型评分标准如下所示:

在决赛的数据集中,测试集有 21520 个样本,验证集有 21520 个样本,训练集有 172200 个样本,赛方根据不同的影响因素随机打乱数据集。

数据集被分为 12 个批次,每个批次的样本来自一个子类,总共有 12 个子类,即:4(环境影响因素/等级) * 3(难度等级),包含 7 个生活场景下的 69 种物体。下图为每个批次下不同影响因素的概览:

Lifelong Object Recognition  优胜方案模型展示

来自海康威视的 HIKVISION 团队荣获 Lifelong Robotic Vision Competition 冠军,该方案采取知识蒸馏 (knowledge distillation) 和网络扩展 (network expand) 的方式来缓解灾难性遗忘。

该方法会计算对于每一次增量任务与先前学习任务的领域差异 (domain gap) 来判断任务相似性,对于相似性大的任务采用知识蒸馏方案在学习新任务的同时记住旧任务的特征,相似小的任务采用网络结构扩充来学习新任务。其方案模型如下图所示:

基于知识蒸馏与网络扩展方案

来自 University of Bologna 的 unibo 团队提出了隐层结构回放 (latent rehearsal) 模型,该模型获得综合评分第二名的成绩。

不同于其他方案针对原数据样本进行重采样,该方法对旧样本的隐层信息进行重采样。实验证明该方案可以在确保高准确率的同时,减少内存使用和计算量。目前该方案可以部署在移动端设备进行训练。

基于隐层结构回放模型方案

此外,来自韩国电子通信研究院 (ETRI) 的 HYDRA-DI-ETRI 团队提出了选择性特征学习 (selective feature learning) 方案去减少噪声物体对目标物体的干扰。该队伍在口头报告中得到最高分。

由于在真实的机器人视觉识别任务中,目标物体的周围环境趋向于杂乱无规律,存在较多的噪声物体,这可能会对识别的准确率产生影响。该团队采用 Single Shot MultiBox Detector (SSD) 去对选择出第一个任务的数据集中的目标物体,后再进行连续的物体识别任务。

基于选择性特征学习方案

AI 计算机视觉的持续学习探讨

为了进一步推广 Lifelong Robotic Vision 项目,吸引更多的学术工业界的研究开发人员,英特尔中国研究院作为主办方之一 在 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2020 举办了「Continual Learning in Computer Vision Workshop」。

该 workshop(研讨会)主要探究计算机视觉问题中的 Continul Learning 的能力。在计算机视觉系统中,如何在多个连续任务中保证算法的稳定性,如何有效的克服神经网络中灾难性遗忘的问题,如何进行知识在不同任务中的迁移,以及如何在硬件受限情况下优化 Continual Learning 的综合表现。

研讨会主要分为研讨会文章收录,现场专家报告,Continual learning in Computer Vision 挑战赛。目前确认 9 位专家会在现场进行口头报告讨论 Continual Learning 在计算机视觉中的研究前景以及潜力,包括:Google Deepmind 研究科学家 Razvan Pascanu、Facebook AI Research 研究科学家 Marc’Aurelio Ranzato、INRIA 研究总监 Cordelia Schmid等。

研讨会主要关注 Continual Learning 的话题,目前已开放公众提交平台,录用的文章将加入 CVPR 2020 workshop 的文集,

更多提交详情可查看:

https://cmt3.research.microsoft.com/CONTVISION2020 

Lifelong Robotic Vision Github 详情:

https://lifelong-robotic-vision.github.io/ 

/ 更多阅读 /

AI开发者的社区官方专栏已经开通啦,扫码即可查看更多历史内容~

点击 阅读原文 ,查看:【肌肉活动电信号推测手势 】比赛 baseline