专访商汤联合创始人林达华:CV 才刚刚开始,远没到鼎盛时期
作者 | 丛末
编辑 | 唐里
今年 ICCV 上, 华人收录论文数量首次超越了美国 ,对于华人研究者而言,ICCV 2019 也成为了一场具备“转折点”意义的国际学术顶会。而从现场参会情况来看,无论是参会者、展商,还是 Oral 报告和 Poster 上,刷脸率最高的也当属华人面孔。
在这样的华人高光背景色中,商汤科技无疑是本届ICCV中的 “C 位”角色。作为一家从实验室走出来的 AI 公司,商汤科技在学术领域上一直都是一个出类拔萃的存在,而在这场会议中,则可以用“独占鳌头”做形容:ICCV 2019中, 商汤科技不仅有57篇论文入选 ,成为全球企业中收录论文最多的企业,还在ICCV的一众竞赛项目上斩获13项世界冠军。
会议期间,AI 科技评论也有幸采访到了 商汤科技联合创始人、港中文-商汤联合实验室主任林达华教授 ,基于商汤科技以及其团队在ICCV 2019的论文成果,聊了聊商汤科技在 ICCV 上的表现,以及商汤科技与联合实验室的整体布局情况。
不仅如此,林达华教授本人作为深度学习与计算机视觉领域的资深科学家,也难得地在本次采访中分享了一些他个人的研究经历和观点,并对华人今年在 ICCV 上的表现谈了谈自己的感受。
以下为 AI 科技评论与林达华教授的对话实录。
林达华简介
林达华,香港中文大学资讯工程系助理教授,商汤科技联合创始人,并担任香港中文大学-商汤科技联合实验室主任。 加入香港中文大学前,林达华于2012年至2014年担任芝加哥丰田科技研究院研究助理教授。 林达华教授的研究领域涵盖计算机视觉、机器学习、大数据分析等,近年来主要专注于深度学习及深度学习在高层次视觉理解、概率推断、大数据分析领域的应用。
林达华教授在CVPR、ICCV、ECCV、NIPS、T-PAMI等计算机视觉与机器学习顶级会议与期刊上发表过逾70篇论文。 他在贝叶斯非参建模方面的开创性工作于2010年获得NIPS的最佳学生论文奖。 他还曾获ICCV 2009 、ICCV 2011最佳审稿人奖,指导香港中文大学研究团队参加ImageNet2016、ActivityNet2016、ActivityNet2017等国际竞赛,并获得多个奖项。 他还担任ECCV 2018的领域主席。
林达华教授2012年获得美国麻省理工学院计算机科学博士学位,2007年获得香港中文大学资讯工程硕士学位,2004年获得中国科学技术大学电子工程与信息科学学士学位。
57篇论文!
提出、定义并解决新问题
AI科技评论 : 商 汤科技在CVPR、ICCV 等计算机视觉领域的国际顶会上的表现一直都非常出色,其中今年的ICCV 更是中了57篇论文之多,那这些论文中,您认为比较具有突破性意义的成果有哪些?
林达华: 这些论文中,有相当一部分都在某个特定方向取得了显著的进展,有在应用上的拓展,也有在核心方法上的创新。我这里主要选取我比较熟悉的两个工作来介绍:
一项工作是今年 ICCV 的一篇Oral论文 《 CARAFE: Content-Aware ReAssembly of FEatures 》,它解决了一个非常关键的问题: 检测任务中需要将多个尺度的特征结合起来进行分析。 当这些特征对齐到一个协同的分母上进行融合时,传统方法是通过升采样的方式来进行融合,然而在这个过程中我们发现,这种升采样跟传统的图像升采样有很大的区别,如果直接采用传统的升采样方法,最终的效果会受到很大的抑制。
而在这篇论文中,我们提出了一个 轻量级的通用升采样算子 CARAFE ,在特征升采样的融合中可以最大限度地保留其中的重要特征,并且能够广泛地应用到各种需要结合多尺度特征来进行分析的任务中。CARAFE 虽然非常简单和轻量化,但在多种不同任务中都一致并很好地提升了模型的性能,我们未来会将这种方法进行比较广泛地应用。
另一项工作则是我个人非常喜欢的一项关于舞蹈生成的工作,《 Convolutional Sequence Generation for Skeleton-Based Action Synthesis 》。
以前的舞蹈生成基本上生成的是一些小图片或者非常短的小视频,而长视频的生成对于计算机视觉而言一直都是非常大的挑战。
这项工作则提出通过图的反卷积和持续反卷积的叠合,使用高斯过程来逐渐生成一个非常长的任意时空尺度的视频序列。这样的话,这种方法其实就解决了视频生成中的一个关键挑战,即如何生成长时间或任意尺度的视频序列,并且在此过程中能够很好地保持序列在时间和空间上的结构。我认为这是一项非常有意义的工作,并且在未来,这项工作对于增强现实、视频内容生成等任务可能都有非常广泛的应用潜力。
AI科技评论 : 其 中舞蹈生成这项工作具体是在什么背景下开展的? 过程中遇到过什么挑战或者有趣的故事吗?
林达华: 一年多以前,生成成为了计算机视觉领域一个特别受关注的方向,包括现在 ICCV 这个会上也有很多关于GAN 和生成的工作,但是其中大部分工作重点关注的还是空间结构的生成,然而我们在接触和研究了大量关于视频生成的工作后,发现现在的生成相关的工作对于时间结构的把握还存在比较大的空白,这就驱动我们开始了这个研究项目,希望能够填补该领域对于长时间尺度的生成的研究空缺。
在这个研究的开展中,我们遇到的挑战其实还挺大的:
首先, 视频生成其实是一个非常新的领域,它的数据量远不如图像那么充分 ,并且我们研究的还是非常长时间尺度的视频生成,这项生成任务本身的复杂性与该领域数据量不足就构成了很大的矛盾点;
其次, 持续的生成其实还有一个很大的特点 ,就是一方面要寻找不随时间变化的共同规律,另一方面又要保持多样性,寻求这一点上的平衡也成为我们面临的一个比较大的挑战。所以在模型的结构设计上,我们做了很多探索,最后才找到一个真正能够有效克服这些困难的模型结构,就是以高斯过程驱动的时空图卷积网络。
这项研究开始之初,即便生成十秒的非常简单的动作,都存在很大的困难,而现在我们的模型基本上能够生成持续十分种的舞蹈,甚至可以根据音乐和其他的一些输入作为条件做生成。这样的成果,其实是我们经历了非常多的尝试而获得的。
AI科技评论 : 商汤科技最近几年在ICCV 上的表现一直不错,从论文层面而言,除了数量上一直在增加,还有哪些方面的特点?
林达华: 能够被 ICCV 收录的论文当然肯定存在一定的创新价值,但是 大多数论文还是着眼于算法的局部提升或者针对某个算法或方法的局部提出一些新的架构和设计方法,从而实现性能上的提升。
当然,商汤科技和实验室也做了很多改进算法或性能上的工作,比如我们在很多比赛中拿了不少冠军,就是我们在算法和性能上的优化成果的重要体现。
但如果仔细观察商汤科技和联合实验室发的很多论文,能够发现这些论文和其他多数论文有着不一样的特点: 我们很多工作都是在定义一个新的领域和新的问题,并且提出了我们自己的解决方案。 从这个层面去实现创新的工作,其实在整个会议中占的比例并不多,因为我们通过在实践中接触到很多业务第一线的真实问题,进而能够提出很多学术界实验室所看不到的一些问题。
比如说我前面提到的两个工作,前者是我们对大量算法进行抽象后提出的一个算子,实现了算法和方法上的创新;而 舞蹈生成 则是我们在实际需求的背景下提炼出来的一个研究方向,我们刚开始做的时候,这个方向在学术上还是处于空白阶段的新问题。此外我们做的包括电影分析、特定约束条件下的长尾场景的理解等工作,都是我们在业务场景中所遇到的一些特殊的挑战,学术界对这些特殊挑战的探索实际上并不是很深入。
当然我们提出这些新问题的过程并不是完全被动的,并不是来了个项目遇到了问题所以要克服下,而是在大量的需求中判断整个行业的主要的痛点在哪,进而提炼和提出并定义这些新的问题,驱动研究团队来开展长远的探索,最终回应整个行业的根本需求。
AI科技评论 : 论文以外,今年ICCV商汤科技还举办了例如WIDER 挑战赛、 ICCV Night 等一系列的活动,就您看来,学术顶会上的成果和表现于包括商汤科技在内的企业而言,有着怎样的意义?
林达华: 关于这一点,我认为可以从以下几个层次来说:
第一,能够体现了我们持续做原创技术的精神和初心。 现在很多公司专注于应用和业务,通常是拿着现有的一些技术去解决一些实际问题,那它解决问题的层次和深度会受到一定局限。而商汤科技会投入很大的力量去构建这种原创技术的核心竞争力,在这个过程中会产生很多就学术本身而言就很有价值的新想法、新方法、新技术以及新挑战。而商汤科技对于这些问题的研究和成果,可以在学术会议上体现出来,并反过来成为商汤科技持续做原创技术研究的牵引力量。
第二,学术会议对于整个社区的交流而言,具有非常大的价值。 实际上,学术研究中最关键的环节就是提出好的问题。比如说我们在探索过程中发现了一些新问题,提出了一些解决方法,并以学术论文的方式发表出来,当展示给社区的其他学术研究者时,能够推动整个学术界运用更大、更广泛的力量去共同解决这些问题。最后,这其实还能够反哺整个行业。
第三,在会议中举办比赛,其实可以看做是我们在寻求性能的极限和探索方法的边界方面的努力。 这些比赛产生的方案,我们不一定会直接拿到业务场景中区应用,但是可以让我们探索到某项技术的边界和根本困难在哪,对我们后续的开发和探索都具有很好的指导意义。与此同时,有一些方案其实可以通过一些工程化的工作来进行简化压缩,最后也可以成为应用到业务中的效率和性能得到很好平衡的模型。
从实验室走出来的商汤科技
天然拥有技术创新的基因
AI科技评论 : 这些论文有一部分出自香港中文大—商汤科技联合实验室,那联合实验室对于商汤科技而言是一个怎样的存在呢?
林达华: 联合实验室跟商汤科技的关系是一种非常紧密的合作关系,经过过去几年的合作,现在已经构建了带有示范性意义的产学研结合的闭合双向关系。具体而言:
一方面, 商汤科技在实际的业务探索中会发现很多重要的挑战 ,针对其中一部分,商汤科技内部团队已经提出了很好的解决方案和技术,而另一部分则是一些具有长期学术价值的问题,这些问题通过合作交流能够反馈到实验室这边——对于实验室而言,找到有价值的问题是最关键的环节。
另一方面,实验室这边由于不需要像商汤科技内部团队一样承担业绩压力, 能够去研究一些长期的、较高风险的探索性方向 ,如果最终能取得成功,也能够非常有效地推动商汤科技内部去构建新的解决方案。
AI科技评论 : 成果 从论文走向应用落地,始终是当下人工智能领域企业面临的重要命题,在这一点上,商汤科技作为从实验室走出来的企业,具备怎样的优势?
林达华: 任何一个行业中的企业,在学术成果的应用落地方面都面临着非常巨大的挑战。成果从论文走向应用落地,其中最重要的挑战就是学术研究跟真正的业务实践之间存在非常大的差距。学术界的很多实验室一般都是关着门做研究, 研究目标和跟实际的用户和行业需求和痛点并不完全一致 ,并且存在的差距还比较大,所以脱离产业联系的纯学术研究,是很难真正与行业的痛点相匹配的。
商汤科技从实验室走出来,到现在做出来的一系列成绩,整个历程非常不容易,对此我也感到非常自豪。
在具体的模式上,商汤科技和实验室之间一直遵循一种非常有效的合作模式,即我们实验室的学生在完成了研究成果后,可以到商汤科技去实习一段时间,并与商汤科技内部的研究者进行合作,在这个过程中,能够产生两个非常正面的意义:
一是可以让我们 实验室的同学和老师真正建立起技术的价值意识 ,学会将学术成果落地到实际的系统中去,而不再单纯发论文;
二是这些同学和老师本身就是做技术研究的,当 他们看到技术落地时会收获到成就感,会有更大的动力去后续的研究 ,与此同时,他们自己作为技术的原创开发者,在与商汤科技内部研究者一同落地技术时,会使得整个过程也更加顺畅和迅速。
总体而言,比起没有实验室基因而需要找高校实验室合作的一般企业而言,我们从学术研究到业务落地的链条要短很多:首先,我们实验室和商汤科技从研究的源头开始,就紧密地结合在一起,并且会持续保持亲密的沟通;其次,实验室做出成果以后,商汤科技也会利用很多机会来进行应用落地——这些其他企业与高校合作中存在的障碍在我们这里往往更容易突破。
AI科技评论 : 现在无论是大厂还是初创企业,都相继成立了这样的研究型实验室,与BAT 等大厂的对相关实验室相比,商汤联合实验室具备哪些优势?
林达华: 我先说优势吧,主要体现在四个方面:
第一,在计算机视觉这个领域的主流顶级学术会议上,我们能明显地看到商汤科技的成果其实会更加丰富些,无论是竞赛成绩、论文成绩还是学术成果的影响力,都会更高,而这一点源自于商汤科技本身的 技术创新基因和文化 ——我们更知道如何用科技创新的力量去驱动业务场景上的核心竞争力。
第二,商汤科技跟学术界有天然而广泛的联系, 很多承担重要角色的负责人都是教授 ,因而它从学术界吸取最新的技术成果的链条要短很多。
第三,我们自己的学生能够 直接进入到商汤科技实习 ,所以我们培养出来的人才既有学术研究能力,同时也在和商汤科技的合作中建立起了技术落地的思路,他们毕业后刚开始工作就已经能够独当一面去开拓一个新的业务,并且知道如何将技术融进业务场景中,这一人才优势其实是我们很核心的一个优势。
第四,在计算机视觉这一领域, 商汤科技入场很早 ,所以经过前期这几年的积淀,我们对于这个行业如何跟AI 更好地实现结合,会有更加深入的理解,这也是商汤科技天然的宝贵财富。
AI科技评论 : 目前联合实验室取得了哪些意义较为重大的成果? 未来有哪些重点关注的方向?
林达华: 我们目前取得了较大意义的成果主要包括, 第一个是首度超越了人眼的人脸识别算法 ; 第二个是我们做的一系列超分辨率的工作 ,目前也是领先于谷歌等国际科技巨头企业的; 第三个是视频理解相关的工作 ,例如我们提出的时序分段网络等一系列技术,现在也成为了业界广泛采用的标准范式; 第四个是在 3D 场景理解相关的工作 ,对于自动驾驶等领域具有非常重要的意义。
关于未来重点的方向,我认为计算机视觉领域发展到现在,有一些东西已经做得非常成熟,但对于整个行业和整个领域来说,目前所取得的成果还仅仅只是一个开始,未来还有非常大的发展空间。就我看来,未来几年有以下几个重要方向值得深入探索:
第一,新的场景和新的数据形态。 一方面,例如我们现在做的真正意义的长时间电影和视频理解,是跟传统的动作识别非常不一样的。另一方面,例如现在我们要建设的智慧生活、智慧城市和智慧社区等综合场景的 AI 技术应用,其实涉及到很多不同任务与很多不同数据的交互,需要形成一个整体的分布来将原本孤立的任务和数据相互打通,真正让 AI 技术从应用到传统的单个任务到能够给整个场景赋能。
第二,打破对数据的依赖。 现在的模型所取得的性能,实际上都是建立在对大量标注数据的依赖的基础之上的。比如说算力,我们可以通过改善硬件来提升,但是人的标注速度是受限于人本身的,所以未来要克服这一问题,我们就要改变这种基于标注数据的监督学习训练范式,同时更积极地去使用能够更广泛获得的未经标注的数据。未来,比起算力,数据也是 AI 技术的发展的同样重要的制约因素,只有打破这一制约,AI 的能力才能上升到一个新的水平。
第三,这个领域之前关注得更多的是准确率和性能, 追求的指标比较单一,然而 AI 技术要推广到整个社会中作为基础技术去应用,还存在很多约束:首先是安全性,现在的模型其实很容易受到攻击,是非常脆弱的,所以这是一个亟待解决的问题;其次是如何在保护隐私的条件下有效地训练模型,现在大家也在积极地探索这一方向;还有是可解释性,现在 AI 无论是应用到自动驾驶还是医疗领域中,我们人类还是不能完全放心,所以我们不仅要理解 AI 决策的逻辑,还要了解AI 在紧急场景中如何做出反应——针对后面这一点,我认为可以尝试用模拟器来提供这些场景的数据集从而训练模型。
第四,未来对场景的视觉理解会逐渐从2D转变到3D ,我这次在 ICCV 上也看到了非常多相关的工作。
AI科技评论 : 商汤科技在计算机视觉这一赛道上所面临的竞争既有来自大厂和其他独角兽企业,也有来自初创企业,就您看来,商汤科技在未来的发展中应如何不断提高自身的竞争力和地位?
林达华: 首先一点是要加强基础的核心技术的研发和建设。之前我们在计算机视觉的算法上已经有了很深的积累,也取得了非常丰硕的成果,而未来除了这些上层算法外,我们还要加强整个系统层面的建设,包括计算能力、数据能力等方面的核心能力建设。
另外一个 关键是人才! 无论要做什么事情,最不可或缺、最首要的要素就是人才。商汤科技本身的文化能够为人才提供较好的发展空间,确实能够吸引到很多优秀的人才加盟商汤科技来共同推动 AI 的发展。现在人才市场也确实非常激烈,未来商汤科技也会继续加大力度为人才创造更好的发展空间。
与此同时,我们会继续拓展我们的生态合作。现在商汤科技跟高校合作建立了很多联合实验室,已经有了较好的积淀,但是这方面的工作还在发展和成长,未来还有很大的空间,所以我们希望能够跟包括学界和业界在内的整个社区形成一个非常良性的、开放的产学研合作生态。我认为这对于商汤科技以及整个行业的发展而言,都具有长远价值。
CV 才刚刚开始
未来大有可为
AI科技评论 : 抛开商汤科技和联合实验室,单就您个人而言,学术成果也非常亮眼,当初是基于怎样的契机选择到工业界来,并联合创立了商汤科技?
林达华: 一开始是汤晓鸥老师认为计算机视觉已经突破了应用红线,迎来了商业化的非常好的契机,向我和王晓刚老师分享了他的远见和事业蓝图,当时我们非常认同,也愿意跟汤老师去共同创建这个事业。
但是一开始我是以教授的身份参与其中的,而随着整个参与度的加深,后续也参与了商汤科技内部一些研究项目的规划和指导,在这个过程中就逐渐开始将强商汤科技内部和实验室之间的合作和联系,而这对于我本身的学术生涯而言也很有价值,正如我在前面提到的,给我的实验室提供了很多很有价值的问题,这也是我们实验室能够做出这么多成果的重要原因。
AI科技评论 : 您现在既是商汤科技联合创始人,又是港中文大—商汤科技联合实验室主任,在具体的角色上,主要负责哪些方面的工作内容呢?
林达华: 我的具体工作主要包括三个部分:第一个部分是在实验室指导学生做前沿研究;第二个部分是对商汤的一些研究团队进行指导,并在这个过程中将一些研究工作落地到商汤科技的业务中,与此同时,我也会引导研究部门做一些前瞻性的工作;第三,我也在通过自身在学术界的联系去积极帮助商汤科技和实验室拓展跟高校的生态合作。
AI科技评论 : 在技术产业化方面,CV是走在人工智能其他领域前头的方向,现如今 CV技术已经大规模应用,而像NLP等被认为是人工智能接下来会产生大规模应用的技术方向。 那从产业应用的角度来看,您认为 CV是否已经过了鼎盛时期?
林达华: 我认为CV 这个领域才刚刚开始,远没到鼎盛时期。
CV 的潜在应用领域非常广泛,其在例如建设智慧生活、社区治理助理以及为国计民生的各个领域提供有效的信息等等方面都存在很广泛的应用潜力。现在大家更多地关注CV 技术在安防、自动驾驶等领域的应用,这些应用也让大家看到了CV 技术的价值。
而实际上, CV 的本质其实就是从视觉的角度获取世界中的各类信息,再应用到工作任务中 。现在CV 实现的大规模应用还只是几个点,而未来还有更多得多的点能够探索 CV 技术的应用,而这就需要我们整个社区去真正深入到不同行业中去寻找到真正的痛点需求,并思考如何利用现有的CV 技术、AI 技术去帮助行业,这整个过程都存在无限的可能性。
现在CV 技术已经得到应用的几个点,可能看上去增长速度放缓,好像是走到一定程度了,但是这并不代表CV 这个领域就没有了空间。CV 现在的应用潜力只释放了一小部分,要真正应用到更加广阔的新的场景,还需要一些时间,但是不会太远。
华人学术研究缺乏原创性?
要从发展的维度看待此问题!
AI科技评论 : 其实不仅是商汤科技,整个华人研究者在 ICCV 等会议上的表现都非常出色,比如2017年ICCV 接收论文中,有 40%的第一作者都是华人,今年收录论文数量甚至超过了美国,但是今年在奖项上的表现稍有遗憾,对于华人近年来在此类国际顶会上的表现,您如何评价?
林达华: 华人在计算机视觉领域的影响力正在持续增长,这是毋庸置疑的。对于今年华人没有获得论文奖项, 我认为这件事情存在很强的偶然性,因为获奖的就两三篇 ,如果单凭某次会议的获奖论文去判断华人在这个社区中的影响力,我认为信息是不足的,所以我们要看的还是整体的影响力,比如说今年的Oral 论文,华人就占了很高的比重。
AI科技评论 : 其实在不少顶会上,一些前辈华人研究者都屡次提到华人研究者所存在的一大劣势,便是缺乏原创,而原创性其实也是商汤科技特别强调的一个宗旨,您如何看待这一现象?
林达华: 我认为任何一项技术的发展都会有一个变迁的趋势,国内的相当比例的研究一开始都是应用驱动的,目前的这种现象其实是可以理解的。而当整个行业开始逐渐建立起来后,我们其实会将越来越多的力量投入到基础研发中,这一趋势其实在今年的国际学术顶会上就更加明显地体现出来了。
这些基础研发一方面是核心模型和核心方法,比如说 今年华人的 ICCV 论文中还是有相当比重在做基础网络结构与核心训练方法的研究 ,另一方面是基础系统例如芯片这些领域,现在国内也进行了大规模的投入,当然要实现具有影响力的成果可能还需要一个时间周期。
所以我认为应该从发展的维度上来看待华人目前的原创性问题,并且我也相信,再过一段时间,这些投入和研究会慢慢结出果实。
AI科技评论 : 您作为无论在学术界和工业界都有着丰富的履历的科学家,从学术研究和职业选择方面,对于后辈研究者们分别有哪些建议?
林达华: 第一, 一定不要盲目跟风 ,要选择自己真正感兴趣和愿意长时间投入的方向。他如果因为某个研究方向热门就去试一试,而没有想清楚自己真正感兴趣和愿意长时间投入的方向是什么,那他基本上做不出太好的成果,并且不一定能坚持下去。
第二, 重视培养思维能力 ,不要被热点方法带着走。我在指导自己学生的时候,一直都强调不要跟着热点方法走,而是要建立起寻找挑战、提出问题、定义问题并解决问题的思维,因为热点方法其实变得非常快,而不变的是他们自身具备这种思维能力。当然,将一些流行的方法用到自己的研究工作中肯定是可以的,但是他一开始做某项研究的出发点不应该是为了用某个热点方法,而应该是为了探索某个问题的本质,这样的话,无论技术路线如何发展和变迁,他都能够一直站在创新的前沿。
第三,在职业选择上,要真正想清楚自己想要走的道路是什么 ,并且思考如果要走这条路,需要培养怎样的素质,进而有计划地朝着某个方向锻炼和培养自己需要具备的能力。如果选择到学术界任职,那他可能要更多地培养自己寻找和定义问题的能力,而不是简单地跟着导师发论文;如果选择到工业界,那他就要培养自己观察行业痛点、寻找和归纳客户需求并规划解决这些问题的能力。
点击“ 阅读原文 ”加入 ICCV顶会交流 小组