微软升级神经网络合成技术,可快速合成有声书,提高视障人士阅读体验

视障人士日常阅读主要是通过触摸盲文书籍、听读屏软件、真人有声书籍等途径,不过,目前这几种方式仍存在一些局限性,盲文书“书荒”仍在,且制作成本高、阅读时间长,读屏软件声音较机械,不够自然,而真人录音成本较高…

现在,利用 AI 技术这些问题便可迎刃而解。微软 AI 语音团队一直在和中国最大的视力障碍人群公益组织—红丹丹合作探索 AI 电子有声产品。今年,微软智能语音产品团队对红丹丹旗下心目图书馆的 AI 语音能力进行了升级,利用微软神经网络语音合成技术,通过目前较为成熟的微软人工智能女声“晓晓”,并训练新的神经网络男声,设计出了能够大批量文字转语音的平台,打造出了更温暖、更自然的声音。

10 月 9 日下午,微软语音团队、微软红丹丹项目团队和红丹丹公益组织的负责人在接受 InfoQ 等少数媒体采访时,介绍了微软 AI 智能女生晓晓在红丹丹项目中的落地最新进展。

微软神经网络语音合成技术打造更温暖的声音

对于只能通过触摸和听觉来感知世界的视障人士而言,阅读是一件很奢望的事情,他们通常是通过触摸凸凹不平的盲点来阅读盲文书籍,触摸完一页书所耗费的时间是健全人的数倍。

为了让这些“黑暗中的行者”拥有更好的阅读体验,微软 AI 语音团队和红丹丹达成了合作,探索研究利用 AI 技术将文字合成电子有声读物。2014 年,微软语音团队帮助视障人士在 Azure 上搭建的云端有声读书馆——心目图书馆诞生。其主要为盲人提供有声书借阅服务,目前该图书馆已经覆盖全国 105 所视障人士学校。

在今年的微软骇客松活动中,微软智能语音 AI 产品团队对心目图书馆的 AI 语音能力进行了升级和技术更迭,打造出了更温暖、更自然的声音。据悉,新版本的 AI 语音体验将在 10.15 日”世界盲人日“这天正式上线。

2019 微软骇客松“红丹丹”项目成员

微软亚洲互联网工程院人工智能语音组产品总监丁秉公告诉 InfoQ ,该项目主要利用微软神经网络语音合成技术,通过目前较为成熟的微软人工智能女声“晓晓”,并训练新的神经网络男声,设计出了能够大批量文字转语音的平台。

他表示,深度神经网络的升级,是一个 TTS 代际的升级。区别于传统的 TTS,微软晓晓的声音质量、表现力更好,此外它还在声音细节处理上具有优势,譬如阅读中英混合的文本更加自然、清晰,这得益于运用深度神经网络进行混合计算,令这种合成无缝切换。

微软亚洲互联网工程院语音组产品经理、晓晓语音产品负责人刘越颖介绍,微软神经网络语音可针对不同的文章类型提供不同风格的演绎,目前能做到新闻、情感、故事、助理、客服、历史、记录、唱歌等 8 种类别的声音。

在文字转语音的合成速度方面,主要分为两种情况,一种是实时合成,在几百毫秒内便能反馈,一般运用在智能对话、助理等场景。另一种是非实时合成场景,如对整本有声书的长文本合成,所需时间约为人工录音音频时长的 1/3。

丁秉公坦言,微软语音技术和盲文书籍在合成过程中最难的技术点在于 AI 对于上下文、篇章的理解上,在这方面,目前人工智能距离还无法做到像人一样的理解能力。谈到解决方案,微软 AI 语音团队主张循序渐进,先定义声音的类型再深入实现不同情绪的自动演绎,目前,微软采用自动标记 + 人工辅助标记的方法来实现不同声音类型的选择。

AI 技术打破有声内容生产壁垒

除触摸盲文书籍外,很多视障人士日常还会通过读屏软件来进行电子阅读,读屏软件的声音较为机械、生硬,难以产生共鸣,长时间聆听很容易乏力,难以集中。经过本次升级后,微软晓晓的声音质量更高、更接近人类朗读的声音,在收听效果上,会让视障人士感觉更亲切、自然。

红丹丹视障文化服务中心执行主任曾鑫表示,一些盲人学校的孩子在听了微软晓晓的声音后普遍做出了正向的反馈:比现在市场上合成的声音自然多了,不像冷冰冰的机器的声音,更像是人读的,更温暖。曾鑫认为,更有“温度”的声音会帮助提高孩子们阅读的兴趣。

相比普通书籍,盲文书籍的数量只是冰山一角。因为制作成本昂贵等问题,市面上的盲文书籍数量较少,“书荒”仍然存在,类别也不够丰富,现借助微软的智能语音技术平台,可以大批量地、自动化地的将电子书转变为有声书,大大减少人力和时间成本,丰富视障人士有声阅读内容的来源。

电话采访另一端,曾鑫算了一笔“账”:

一本 100 页左右的纸质书籍,译成盲文书籍要 400-500 页,制作成本在 80-100 元左右,成本较高。而通过云端传送,一本有声书做出来之后,只需少量制作成本就可以做到无限量广域传播。

传统有声书制作需要大量真人录音,就算有志愿者献声可以省去录音费用,但录音的精力和时间成本仍无法避免。受到时间、地域、人力等各种成本限制,完成一本有声书的录制最快也要花上三个月,如果追求高质量的精品读物,时间和资金成本则更高,而微软 TTS 最快仅在几百毫秒内便可完成合成,避免了传统制作方式中存在的速度慢、成本高的问题。

“通过 TTS 合成方式,可以 7 X 24 小时无间断合成,输入文字后声音就出来了,只要有文本的内容,就可以源源不断的输出有声内容,这打破了有声内容生产的壁垒“,丁秉公表示。

技术和公益更好结合

在此之前,微软和红丹丹已是十几年的合作伙伴,2006 年,双方展开首次合作,微软一直在为其提供技术和产品支持。在微软大中华区公益事务总监王岭看来,微软一直在利用自己的技术特长和红丹丹相结合,服务视障人群。

接下来,微软还将和红丹丹一起做更多探索,刘越颖透露,团队还将尝试挖掘具有优质声音特质的视障人才,通过微软的技术助其生成有声内容,让他们也能帮助更多人,实现自我价值。

丁秉公表示,在满足视障人群的学习需求之外,未来还会考虑利用智能语音技术做更多尝试,如帮助具有自食其力能力的视障人群更好地工作。他认为微软技术服务的目标群体不只局限在残疾人,而应延伸到更大的有障碍人群。

此次和红丹丹心目图书馆项目的合作是微软公益发起的又一次行动。

王岭表示,公益和技术相结合,微软一直在路上。微软和公益组织的合作,最早可追溯到 1998 年。2011 年 6 月,微软在全球公布了“Tech for good”理念,并在此后积极践行。除了和红丹丹的合作,20 多年来,微软还利用在线客服、机器翻译、人脸识别、云技术、大数据等技术和平台帮助其他社会残障人士解决所需和处理社会棘手问题,代表性的公益项目包括“ AI for Earth”(地球人工智能)计划、微软人脸识别应用 API 寻找儿童、为中国发展研究基金会“智能村小”项目研发智能远程实时教育系统等。