澎思科技首席科学家申省梅:视频图像智能化,打造完善有效的智慧安防局面

作者 | Camel

编辑 | 唐里  

申省梅教授是澎思科技首席科学家、新加坡研究院院长 。她长期 致力于监控与安全、智慧城市、自动驾驶、智能机器人以及AI 工厂自动化解决方案等领域的相关技术的开发部署和落地。

在10月中旬举办的 CNCC 2019 大会上,申省梅教授曾组织了「 计算机视觉技术赋能智慧城市 」的技术论坛,其中包括  西湖大学 李子青教授 等人皆作为演讲嘉宾,分享他们的研究内容。

申省梅教授作为主席兼演讲嘉宾,带来了主题为《 视频图像智能化助力智慧安防建设 》的演讲,她认为当前由于巨量摄像头的存在并不断生产出海量的监控视频,如果想要更好地利用、存储和检索视频图像,必须把视频图像智能化,将视频结构化和智能压缩,只有这样才能做到事前预警、事中处置、事后分析。

       

个人简介:申省梅,澎思科技(PENSEES)首席科学家、新加坡研究院院长,前松下新加坡研究院副院长。作为计算机视觉与深度学习领域顶级科学家,领导超40人的算法研究团队,获得十余项计算机视觉领域国际顶级竞赛冠军,累计专利300余项,致力于监控与安全、智慧城市、自动驾驶、智能机器人以及AI 工厂自动化解决方案等领域的相关技术的开发部署和落地。曾联合新加坡国立大学LV组参加PASCAL VOC(视觉物体分类)连续三年获奖,在美国国家技术标准局(NIST)主办的非受限条件下人脸识别竞赛IJB-A获得了人脸验证 (verification)与人脸辨认(identification)的双项冠军,在微软百万名人识别竞赛MS-Cele-1M人脸挑战赛获双项冠军。  

以下为申省梅教授演讲全文,AI 科技评论进行了不改变原意的编辑。  

申省梅:  

视频图像是从摄像头而来,就像我们的眼睛,我们看到了东西,但如果我们没有大脑来分析,图像就等于是没有意义的东西。  

智慧城市包含着方方面面,从最近的落地来看,智慧安防、智慧交通、智慧社区远远走在了前面。那视频图像智能化能如何助力于智慧安防建设?      

纵观整个安防行业的发展历程,AI的发挥空间还有很多。我相信大家也熟悉整个安防行业的发展,在座年轻人可能不太清楚,最早监控用的都是模拟摄像头,在中国模拟摄像头可能都不见了,但在其它国家还在大量地被使用。下一个阶段,当数字相机出现以后,就出现了DVR;接着网络监控阶段出现了,那时候我们就叫NVR+网络软件数字相机;今天我们看到的高清摄像头、以及智能监控已经出现在各个应用场景中了。

据英伟达预测,到2020年全世界会有10亿个视频摄像头在使用,另一个统计说中国现在已经有1.76亿个摄像头,3年之后可能会有6亿摄像头,也就是说平均两个人一个摄像头。  

对大量的视频,尽管我们有压缩手段(视频流),但怎样存储、怎样观看越来越成为一个难题?假如我们想从大量视频当中快速地侦破一个事件,或检索一件事都变得非常困难。那是不是可以用人工智能来帮忙解决这个问题,做到事前预警、事中处置、事后分析呢?

数据压缩,事实上是一种不做内容分析的压缩,包括MPEG1/2、H.264、H.265,甚至现在的H.266,以及中国的压缩标准AVS2/3。 即使有这样的压缩,但现在摄像头的像素越来越高,摄像头的数目越来越多,即使有5G的出现,有云端的存储,我们最后的DVR、NVR(即使是云端的存储)也都是一种物理的存储。 这不像我们大脑,从来没有一个人说“我们的大脑放不下东西了,我的记忆力满了”这样的话。 因此我们就问,什么时候人工智能能做到代替物理的存储? 物理存储是一个空间,它是有局限性的。 目前的一种做法就是视频图像智能化。

视频图像智能化

对视频图像智能化我们要做好几件事,都是基于图像的分析理解。

第一,视频图像的恢复增强,即在恢复过程中如何提高图像质量。

第二,视频图像的目标检测、跟踪、识别。这个我们可以做到事前预警、事中处置。

第三,视频结构化,它包括人脸属性、行人属性、车辆属性、非机动车属性、以及各种物体的属性,每一个东西都有它的ID(都有它的属性),这些结构化的信息就会使事后检索分析变得更为方便。

第四,在智能化的时代,我们除了普通的图片和视频压缩以外,能不能在视频内容理解的基础上做智能压缩。目前我们也在做智能压缩,也在做视频摘要,这会让我们进一步节省存储的空间和传输的带宽。

1、视频图像恢复增强

刚才讲到图像压缩会造成图像模糊,其实还有很多方面都会造成图像的质量下降,比如设备用的不正当,例如你用了高清的摄像头,但你的lens用的不匹配,或者我们拍摄的时候,环境条件(比如灯光或天气)不太好。 李子青老师讲过光线对人脸造成非常大的影响,这几个问题都会让我们看到视频图像恢复增强是非常重要的一关。

分享一下我们最近的成果,对非常小的脸用的是“深度超分辨率技术”。 传统的人脸识别在40×40以下就不行了; 用上深度学习后可能会提高到30×30。  

而我们的工作可以做到12×14(这是一个很小的脸),中间的结果是我们用深度学习的超分辨率方法恢复了他的人脸识别,我们在人脸识别的库上检测发现,用了深度超分辨率以后,我们的人脸识别性能从0.75提高到0.97。  

当然还有其他各种各样的模糊问题,我们也都在做,例如运动模糊、defocus的模糊等,我们希望将来能够用单一的模块覆盖不同的模糊。

其次是背光、低光的处理。 这里有两个图,右边这张图很黑,什么都看不清,当我们用低光处理后(如左图),内容就可以看到了。 第二张图是做人脸识别的时候,如果你背后光线非常亮,你站在那边拍照,常常会出现脸部漆黑一片。 我们用了背光处理,背光处理有不同的方法——传统的、深度学习的方法,在不同的硬件上、不同的场景下,我们会选择不同的算法。

图像增强也包括去抖动,比如刮风时抖动引起来的图像模糊,以及去雾、去云、去雨的处理。

2、视频图像识目标检测、跟踪、识别 

澎思科技的人脸识别和行人识别、车辆识别,以及非车辆(自行车、摩托车等)的识别都是我们的关键产品,在技术上面,我们要求是非常高的。

这是过去我 带领的团队取得的成绩, 关于人脸识别,取得了NIST奖,以及微软百万 名人脸识别挑战赛的冠军。 目标跟踪、行人检测、行人再识别也分别打破了世界记录。 此外在PASCAL VOC(ImageNet前身),我们当时连着3年参加比赛,并且连续3年拿到冠军。 交通异常检测、自动驾驶、以及智能机器人,我们都有参加比赛拿到过冠军,计算机视觉其实面特别广,它也用在智能机器人,自动驾驶方面。

我们最近在做跨摄像机的行人再识别ReID。 在不同的摄像头里,有时候有人脸出现、有时候没有人脸出现,通过ReID的技术,即使在看不到人脸的情况下,我们仍可以通过行人的身体特征去判断这个人是谁。

这是我们做的一些测试,黄色框中这个人根本连脸都看不到,他出现在不同的角落, 但我们通过他身体的特征,会知道这是同一个人,ID是55,另外一个人是ID25。

7、8月份左右,我们在行人再识别三大数据集Market1501、DukeMTMC-reID、CUHK03,视频行人再识别三大数据集PRID-2011,iLIDS-VID,MARS,以及行人属性上都打破了世界记录。      

人脸识别,澎思更专注于动态捕捉下的人脸识别。 监控相机没有办法约束条件,人脸的姿态、灯光的变化各种各样,还有模糊的情况。 在这方面,最近澎思的模型在IJB-B和IJB-C下刷新了记录。 我们的客户也拿我们的模型去跟友商做了比对,可以看出性能远远超过友商的性能。

李子青老师刚刚提到的ICCV的人脸识别比赛,我们在ICCV LFR挑战赛的轻量级图像识别、大型图像识别和轻量级视频图像识别三项竞赛中成绩第一,一个竞赛成绩第二。

3、视频结构化

视频结构化刚才也讲到了。当你事后想要从视频中检索一件事的时候,可以用视频的属性来检索。

这是公安的需求。 原来公安想要从一天的视频中找到想要的东西,要用肉眼来看视频,找一个东西,确定一件事是什么时候发生的,至少要把整个录像看完才行; 然而将视频结构化以后,几秒钟就可以找到想要的东西。

澎思科技的视频结构化属性与目标参考了国标,比如对行人结构来讲,我们支持27大项、128小项,这是属于业界第一的。 9月份,澎思在行人属性三个数据库上也刷新了世界记录。

当然,在做的过程中也有很多困难,比如数据采集、以及数据长尾问题。 长尾问题我们用了各种方法来解决,甚至用一些传统的图像处理方法,比如雨伞我们可以生成不同颜色的,其中也用了一些很inpainting的技术,也用了GAN来生产,比如最下面这个人脸的数据库不平衡,这个文章已经发表。

澎思也可以做到实时结构化预览、综合检索,以及以图搜图,甚至以图搜视频。

在人脸属性上,除了性别、年龄以外,澎思的算法还包括有没有戴口罩、有没有眼镜等,共支持其它40多个不同的属性描述。        

结构化也包括人、车一些行为的异常检测。 异常包括交通的异常、打架、抢劫、聚集、事故、抽烟等。 2018年我们也在CVPR上的AI  CITY CHALLENGE拿到了冠军。

4、视频内容的智能压缩、视频摘要

最后一个内容,讲一下视频内容的智能压缩,视频摘要。 鲁继文老师提到深度强化学习怎么来帮助我们的例子,在这个问题上,我们知道很难用强化学习来做视频摘要和内容压缩,因为你不知道视频中哪一个行为是最关键、最重要的。

所以,一个策略就是在不同的情况下要有不同的考量,不仅仅是从一帧上去考量,它是在时空域上的一个分析,所以我们采用时空域的特征,并且做到关键内容的保留、压缩和摘要,根据不同的情况,有的时候可以做到10倍、100倍、甚至1000倍的压缩。我们在压缩的过程中属性同时会被记载下来,当将压缩后的这一段视频存下来以后,会不断地将重要的场景和行为存下来,而且对它的属性都有描述。  

视频图像智能化,事实上还取决于图像质量的好坏,而图像质量的好坏又取决于整个软硬件系统的构成。比如说拍摄距离是多少、相机的像素是多少、镜头怎么选择、传输的方式是怎么样的、视频图像压缩的方式等,这些都会影响到图像质量的好坏。所以我们说完美体现技术的优势还在于一个很SMART的解决方案,以及系统人员的培训。  

在AI产业图谱中的技术层,澎思科技一直走在前面。我们的立场是坚持应用驱动的解决方案,商业驱动的算法研究,用最有效的算法和最经济的软硬体来解决客户的刚需。  

因此我的结论就是,视频图像的智能化非常重要。 现在很多人都在用深度学习,如果是视频图像数据,就一定要进行结构化分析,这是一个前提。这个方面包括了很多技术,如果把这些技术都用好,我们就可以实现事前预警、事中处置、事后检索分析。我个人更想追求的一个方向是节省存储空间、传输带宽、智能化的方式。

这个方面我相信接下来大家会往这个方面多考虑,我们会有更好的发挥空间,谢谢大家。

点击“ 阅读原文 ”查看 计算机视觉技术深度解读之视频动作识别