龙泉寺贤超法师:用 AI 为古籍经书识别、断句、翻译
贤超法师原是北京大学物理学院凝聚态物理硕士,2007 年他从北大毕业,2008 年在龙泉寺皈依,此后一直致力于龙泉大藏经的编修与佛学义理研究。
2016 年,AlphaGo 在战胜李世石的历史性事件,引起了贤超法师对 AI 的关注。从那时候起,他便开始尝试将 AI 和自己正在研究的 OCR 技术以及自动标点相结合。
贤超法师在 Techo Park 开发者大会上介绍其研究成果
佛原生 AI 解决古籍经文痛点
龙泉寺在整理和校勘的《大藏经》为佛教经典的总集,也称为一切经。在汉传佛教的两千多年里,历朝历代都对《大藏经》进行了翻译、增补、修订。
流传至今有数十个版本,少的有五千多字,多的有一亿两千万字。
《乾隆版大藏经》的修订参与官员、学者、高僧等 60 余人,
刻字、刷印和装帧等工匠 860 余人,历时六年完成
(图为《乾隆版大藏经》雕版)
2012 年,龙泉寺就着手整理《大藏经》, 计划用整整十年的时间完成。因为传统方法对古籍的整理主要有版本校对、校勘、标点 ,这些步骤能够保证当代读者,也可以尽可能理解晦涩、生僻的经文。
三年后,龙泉寺整理出版了《南山八大部》;再次年,龙泉寺的藏经办公室成立,旨在探索利用人工智能技术,研发出基于深度学习的单字识别引擎;
2017年,龙泉寺成立人工智能与信息技术中心,研发出能识别各种不同大藏经版本的整列识别引擎,并成功的将《六十华严》的大藏经版本进行电子化。
贤超法师目前担任藏经办公室主任,负责《大藏经》的整理工作。
自动标点:OCR +深度学习
为了降低人们阅读古文典籍的门槛,提高学者的工作效率,在近年来贤超法师团队, 运用了包括深度学习、OCR 在内的技术改变传统《大藏经》的解读方式,目前已经取得了颇为惊艳的效果。
现代汉语中,句号、引号、书名号等常用标点近十种,
古汉语中仅有的句号、顿号,经文中也很少出现,难以阅读
贤超法师介绍道, 所谓自动标点,是指在没有人工干预的前提下,根据算法给古籍文本自动标注现代中文标点的技术, 这主要是为了方便现代读者阅读。
此前,已有人工智能为古文加标点的相关研究,不过贤超法师表示,之前基本只是为古文加句号,他认为这个做法「比较保守,比较学术性」。
而他的团队将深度学习运用到了自动标点上, 可以以更高的准确性,给古文添加句号、逗号、问号、感叹号、冒号、分号和顿号其中标点符号。 经过验证,他们所研发的 Transformer 标注结果,和人类的标注结果「几乎已经无法区分」。
RNN+LSTM+ResNet 效果全面提升
自动标点,在 NLP 领域来说,就是一个简单的序列标注问题。解决这类问题的标准方法,就是使用循环神经网络(RNN)。
为了增强 RNN 的性能,在此基础上又发展出来了双向 RNN,也就是每一时刻的输出不仅仅取决于之前时刻的所有输入,而是同时取决于之前和之后的输入。之后,贤超法师团队又将 LSTM 方法引入。
但是此前基于这些技术所实现的自动标点,效果仍不是很令人满意。贤超法师团队之所以 达到出乎意料的效果,是因为他们 在此前的基础上,引入了 ResNet 残差网络(Residual network)。
团队 2019 年发表论文
《大藏经的汇编:当 AI 遇见佛教》, 介绍了其自动标点技术
贤超法师解释道,以往的神经网络最多就是十几层、二十多层的结构,如果层数再多,训练结果就不太容易收敛了。 而残差网络动辄几百层,甚至上千层。更深的网络有助于捕捉到更深层的语义信息,这是其大获成功的关键。
团队也曾尝试使用卷积神经网络(CNN),最终效果是,残差网络比卷积神经网络的标点准确率平均高出 20-30% 左右。
AI 自动标点工具效率如何呢? 贤超法师用一天时间完成了 2 万字左右规模的古文标点,按照古籍标点每千字 15 元的一般稿酬水平,相当于一天创造了 300 元的经济价值。 即使自动标点的准确率只按照 60% 来算,其每天也创造了 180 元的价值。
团队对该自动标点工具也在不断升级
目前最新一代的准确率达到 93.3%
目前,由于贤超法师团队的训练数据多取自佛经,因此其自动标点更适合标点佛教典籍。不过,他表示, 未来该技术也将应用在,经史子集等更多领域的古文献整理工作之中,从而让学者们摆脱机械、重复性的劳动。
今后的古籍点校工作模式有希望改为:AI 先断句、加标点;专业学者进行后期校对、修改。
贤超法师团队在 18 年就开源了这一自动标点的在线服务, 访问古籍·酷(http://gj.cool)可以试用,还可以申请免费调用 API。