头图 | 视觉中国
坐落在京郊凤凰岭脚下的龙泉寺,称得上全国甚至全球科研实力最强的佛教寺庙。
凭借当年学诚法师的一句「佛教是古老的,但佛教徒是现代的」,推动了龙泉寺里的高僧们搞科研、写代码,将佛学与新技术结合,将项目大众化、国际化。成果不断,屡上热搜,被外界持续关注。
近期龙泉寺的贤超法师,参加了国内某技术大会,分享了使用人工智能对《大藏经》进行整理和校勘的技术实践。
贤超法师原是北京大学物理学院凝聚态物理硕士,2007 年他从北大毕业,2008 年在龙泉寺皈依,此后一直致力于龙泉大藏经的编修与佛学义理研究。
2016 年,AlphaGo 在战胜李世石的历史性事件,引起了贤超法师对 AI 的关注。从那时候起,他便开始尝试将 AI 和自己正在研究的 OCR 技术以及自动标点相结合。
佛原生 AI 解决古籍经文痛点
龙泉寺在整理和校勘的《大藏经》为佛教经典的总集,也称为一切经。在汉传佛教的两千多年里,历朝历代都对《大藏经》进行了翻译、增补、修订。
流传至今有数十个版本,少的有五千多字,多的有一亿两千万字。
现代汉语中,句 、引 、书名 等常用标点近十种,古汉语中仅有的句 、顿 ,经文中也很少出现,难以阅读
贤超法师介绍道,所谓自动标点,是指在没有人工干预的前提下,根据算法给古籍文本自动标注现代中文标点的技术,这主要是为了方便现代读者阅读。
此前,已有人工智能为古文加标点的相关研究,不过贤超法师表示,之前基本只是为古文加句 ,他认为这个做法「比较保守,比较学术性」。
而他的团队将深度学习运用到了自动标点上,可以以更高的准确性,给古文添加句 、逗 、问 、感叹 、冒 、分 和顿 其中标点符 。经过验证,他们所研发的 Transformer 标注结果,和人类的标注结果「几乎已经无法区分」。
RNN+LSTM+ResNet 效果全面提升
自动标点,在 NLP 领域来说,就是一个简单的序列标注问题。解决这类问题的标准方法,就是使用循环神经 络(RNN)。
为了增强 RNN 的性能,在此基础上又发展出来了双向 RNN,也就是每一时刻的输出不仅仅取决于之前时刻的所有输入,而是同时取决于之前和之后的输入。之后,贤超法师团队又将 LSTM 方法引入。
但是此前基于这些技术所实现的自动标点,效果仍不是很令人满意。贤超法师团队之所以达到出乎意料的效果,是因为他们在此前的基础上,引入了 ResNet 残差 络(Residual network)。
团队对该自动标点工具也在不断升级
目前最新一代的准确率达到 93.3%
目前,由于贤超法师团队的训练数据多取自佛经,因此其自动标点更适合标点佛教典籍。不过,他表示,未来该技术也将应用在,经史子集等更多领域的古文献整理工作之中,从而让学者们摆脱机械、重复性的劳动。
贤超法师团队在 18 年就开源了这一自动标点的在线服务,访问古籍·酷(http://gj.cool)可以试用,还可以申请免费调用 API。
将《大藏经》翻译并单句分离开对齐
由于《大藏经》专业名词众多,且历代翻译著作语料繁杂,因此并非古文相关专业就能搞定。《大藏经》的总字数以亿计,如果仅依靠有限的几位专家,工作量将十分巨大,所以,AI 的介入,为专家们分担了不少工作量。
基于深度学习的 OCR,识别古籍文字
目前市面上的 OCR 软件都是针对印刷体的,因此不能很好地识别古籍文献中的字体。
贤超法师及其合作团队,基于 CNN+LSTM+CTC 框架,开发了新的 OCR 引擎。然后基于《大藏经(高丽版)》的七万多张整图,168 万条文本行图像的数据集进行训练。
OCR 软件识别古文将其数字化
科技与佛学的融合中佳作频出,吸引关注
龙泉寺的另一位知名高僧、IT 禅修营的创办者贤信法师,在一次访谈里被提问佛法和科技的关系。
他回答:「科技,是追求物质世界的真。佛法,是内心世界的真。很多在科学上做出探索、在技术上做出探索的人,最开始是抱着想为人类做贡献的心,跟佛教提出最慈悲的追求也是相共的,这就是科技与佛法的共同点。」
参考资料:
2050 云栖大会:《贤度法师——龙泉寺的科技实践》
龙泉寺自动标点工具:http://gj.cool/gjcool/index
-
2020 ACM Fellows 名单出炉,13 名华人入选,7 名来自国内!
-
舌尖上的AI:人工智能技术正在被“端上”餐桌
-
腾讯AI足球队夺冠Kaggle竞赛,绝悟强化学习方案迁移至足球队
-
用Matplotlib轻松复刻分析图,看看哪个城市买房最自由
-
精彩碰撞!神经 络和传统滤波竟有这火花
文章知识点与官方知识档案匹配,可进一步学习相关知识OpenCV技能树首页概览11583 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!