从 Build 2019,看微软 AI 背后的同理心、多元化与对更高智能的探索

为时三天的微软 Build 2019 大会结束了。

从美国西雅图雷德蒙德微软总部园区走出来的刹那,蓝天、草地将这座孵化孕育了无数黑科技的场所映照得格外动人,而从全球各地列队来参观的人群、停摆在街区两旁的游客车辆,使这里的科技交融、引领时代的文化复兴革命更具包容性、多元化。

如果不亲身感受一次 Build,不来雷德蒙德听听一项技术的诞生,也许真的不算懂微软。

从最初的操作系统到如今的智能云平台,微软的技术迭代正如萨提亚所说,第一,它正在重塑生产力和业务流程;第二,通过智能云平台的建设,为开发者世界注入不同的、多样的可能选择,无论是应用程序平台、开发工具、基础设置还是各类的认知服务,通过 API 接口、通过接入可扩展的解决方案,微软正让更多的初创、大中小企业释放生产力;第三,创造更个性化的计算,推动人们从需要 Windows 到爱上 Windows。

所以你可以看到,跨设备、端到端正在微软的技术容器里得以生息繁衍:个人计算机、Xbox、HoloLens、Windows 混合现实设备、Azure 等等。

在今年的 Build 大会上,以上这些主角都无一例外没有缺席。

基于 Azure 和 Windows 365,记者数了数,今年的相关发布大约将近 100 项,尤其以 Azure 相关的居多,约占到了总数的 60%,其中,AI 相关的又占到了 60% 当中的 20% 以上(根据非科学统计法统计,部分与 AI 有交集或由 AI 技术赋能的发布不包含在内。当然,这个数字的占比已算非常之高了)。

而在 Windows 365 相关的发布中,Windows Terminal、React Native for Windows、Windows Subsystem for Linux 2 等又堪称开发世界的具有变革性意义的迭代。

可见,开发者在微软的战略蓝图中已经成为了至上的一环。微软期待将面向开发者的服务带上独一无二、一站式的、安全透明的使用列车中。

那么,这些创新如何让开发者重新刷新对微软的认知?又如何阐释微软的商业愿景呢?

在揭示微软的愿景或指导性原则时,Azure 产品营销总监 Bharat Sandhu 提到 Azure AI 时阐述说:

Azure AI 使得更多组织在推进 AI 的应用中变得更具可能性和前瞻性,开发者或者 AI 用户可以加快 AI 在商业化场景中的落地。原先,很多人一直认为机器学习技术来源于学术研究,走不出象牙塔。但是现如今不同的深度学习模型、框架、平台,不同的选择,使得用户能够更好地构建机器学习技术的基础。同时,微软的一项重要原则就是,绝对不拿客户的任何数据,这象征了微软对安全透明、客户隐私的保障。

如何解释 Azure AI 在快速地帮助用户解决当下 AI 商业化应用的困境呢?这里举一个例子。

微软重视 AI,有趣的是,尤其是在文本、语音语义理解层面的 AI,微软更是对其痴爱。

还记得本次 Build 大会上,一项名为 Azure Speech Service 的工具,刚一发布就引来众多热议吗?如果你看了 Build 的直播,那相信对于下面图中的这段会议室内的会话转录场景有一些印象:

Azure Speech Service 这项工具的作用是可以快速识别不同人物对话,并实时将语音精准转化成为文本。

也许你会说,这也没有什么特殊啊!市面上类似工具不是不胜枚举了嘛!尤其是 Amazon、Google 等一众公司都对外发布过自己的专业语音转译 API 工具。

虽然本质上不能否认几款工具的同类性,但其实业界对于转译的精确度(尤其是在某些专业语境中)及上下文的理解转换上是存在较多诟病的。因此不得不提的是,Azure Speech Service 对于专业名词谈话所涉及的领域具有非常高的识别度,而且能自动识别并切换不同的对话人。这其中,基于自适应的方式,Azure Speech Service 会不断优化生成的文本内容。

在参观雷德蒙德微软总部园区的过程中,微软的三位专家也特意对这款工具安排了一场 demo 演示。现场,通过一套“虚拟”麦克风阵列(一台笔记本电脑、一台手机),就可以实现实时转译(关于这项转译的相关技术原理可参考 本文 )。在实时转译过程中,记者发现它对于 Node.js 、RESTful 这种专业术语确实能够较为精确的识别,在多人多轮交叉式对话场景中,通过对声纹的鉴定与识别,能够快速精准匹配到不同个体的发言场景。

其实,这背后所采用的优化方法和流程和微软在优化改进机器阅读理解上所描绘的原理其实是类似的,即将多个相关任务学习到的信息进行整合及关联,在目标任务上精调模型。

早在一周前,微软团队在一项名为 CoQA——Conversational Question Answering 的挑战赛上获得了桂冠。而这项挑战赛就是旨在衡量机器解释文本、机器阅读理解、在对话中回答一系列相互联系的问题。而此次 CoQA 上的研究成果,也被视为微软 AI 历史中的一次里程碑事件。

除此之外,增强机器人的会话能力也被很多 AI 解决方案提供方视为最关心的问题之一。

试想,如果和你对话的机器人拥有强烈的人格,能在激动、愤怒、开心等不同的情绪下给你回应,是多么有意思的一件事情!如果得到成熟化应用,甚至可能改变人类的生活模式和文化。所以,很多企业都会投入到对机器人人格塑造的技术研究中。

在去年的 Build 上,微软就对外发布了一个名为 Personality Chat 的项目。对于微软而言,该项目扩展了 Cortana 工作的多样性,通过对深度神经网络会话模型的训练,使得对话机器人能在各种不同的情绪中产生不同的反应,形成个性化的机器人。记者在微软 Personality Chat 官网上也随机做了一段测试,可以看看不同情绪下的 Bot 怎么给予回应:

在雷德蒙德微软园区的参观中,两位微软的技术专家也对该项目进行了介绍及演示。负责微软 Windows 和文本智能用户体验的专家 Jonathan Foster 提到说:

微软不是仅仅只让人类硬生生地连接到计算机、手机等硬件设备中,还是要让人和设备之间产生情感上的接触,来设计一种移情体验,让交互的过程更加情绪化。

微软 CEO 萨提亚也曾在他的《刷新》一书中提过,在推动人工智能发展的过程中,最重要的步骤就是对人工智能设计达成一个伦理和同理心的框架。相信这里提及的同理心,不仅是机器之于人的同理,也包括人之于机器的同理。Personality Chat 的项目其实从某种层面上是对后者的一项实践,即让人类明白机器就是机器,它不可能达成人类所期望的一切可能的回应,但如果人类赋予其对话的使命,就要看到其应该存在的不同情绪和部分类人行为。

当然,微软 Azure AI 远不止赋能于语音语义转译与理解的场景,毕竟太多的应用场景和案例可以值得被提及,包括计算机视觉、个性化推荐及搜索、自动化系统等等,都在本次 Build 上进行了一一亮相。

微软技术专家 Alex 在访谈时介绍说,当前 Azure 机器学习解决方案的目标用户分为三类:

  • 第一类是个体的数据工程师,应用微软的服务来更简单、更直接地训练他的模型,提高模型开发的周期;
  • 第二类是企业级用户,微软不仅给企业级用户更安全的数据保障,还提供更有效的资源管理,帮助他们节省成本;
  • 第三类是一些 ISV,也就是微软的合作伙伴们。作为一个机器学习服务的提供者,他们给用户提供自己的平台。微软的 Azure 机器学习相当于给他提供了这样一个基础跟最底层的平台,作为他们整个服务的基础存在。

因此需要特别强调的是,作为一项通用化的解决方案,都不是任何场景的真正通用化。特别是针对 ISV,其与微软之间构建的是一座技术桥梁,基于双方的实践和探索,共同优化解决方案能够应对的复杂问题。现场,来自中国的品览科技联合创始人李泽洲在谈及对 Azure AI 解决方案应用时提到了他们的实践。

基于 Azure 上的机器学习、IoT、AKS 服务,品览为汽车制造行业的仓储和物流管理效率提升、自动化等提供了一套解决方案。李泽州介绍说:

Azure 机器学习技术提供了一个很好的、类似于底层任务管道,品览只需要在这个任务管道里定制、开发我们自己的核心算法就可以。但还需要结合我们自身对前期的预处理等方式、图像重建技术、对检测目标进行算法调优、算法框架的优化等,基于双方的共同实践,才能帮助客户能够更好地把这个东西做得非常产品化,提升应用价值和使用效率。

除了制造业外,在雷德蒙德微软园区时,记者一行人同样见证到了 Azure 解决方案在医疗、航空行业场景下的几个有意思的应用场景。例如,结合 HoloLens 的混合现实、Azure 的分析处理、IoT 技术等,有一天你也可能成为一名专业的医生,用技术轻而易举就能检测出人类器官的病灶。

萨提亚曾将 AI 划分了不同的几个层次。底层是简单的模式识别,中间层是感知,最高级的智能就是认知,也是对人类语言的深刻理解。

通过 Build,通过在雷德蒙德微软园区孵化出来的一项项实践,微软或许是在向世人证明一个更更高级的智能,这个智能或许是超越对人类语言的深刻理解,而达到对人类意识甚至高于人类意识的理解、探索。

而怎么诠释高于这个更更高级的智能,可能微软 Build 2020 的大会中,会显露端倪。