甲骨文研究搭上大数据快车
甲骨文研究搭上大数据快车
甲骨文研究搭上大数据快车
中国的汉文字非常了不起,中华民族的形成和发展离不开汉文字的维系。
—— ***
“一片甲骨惊天下”,代代学人焚膏继晷。1899年,沉睡地下3000多年的甲骨被发现,隐藏的中华智慧和文明密码被一一破译。
12月26日,记者来到安阳师范学院甲骨文信息处理教育部重点实验室。工作人员登录“殷契文渊”网站,在字形库中选择甲骨字“人”字形,所有包含该字形的402个甲骨片信息就全部显示出来。
安阳师范学院计算机与信息工程学院院长、甲骨文信息处理教育部重点实验室主任刘永革介绍,“殷契文渊”是目前更大的甲骨文数据库,从开放的之一天起,平台就为全世界用户提供免费服务。它不仅服务全球的甲骨文、考古、历史、文字方面的研究专家,还吸引了古文字爱好者、中小学语文教师、书法爱好者等使用。
为什么要专门建立甲骨文数据库?甲骨文“撞上”现代科技,又会发生什么?
2000年,计算机软件硕士刘永革到安阳师范学院任教,两位研究甲骨文的老师建议他开展甲骨文信息化研究。“一头是中国古老文明中的甲骨文,另一头是先进的计算机技术、人工智能。”刘永革坦言,当时觉得这个课题简直是两个极端。
“释读甲骨文本就是世界难题,此外,还有一个难题摆在面前——甲骨文没法输入到电脑里。”刘永革说,这是他最初想要解决的问题。
“甲骨文和汉字不一样,好多字我们不认识,使用拼音输入法不行,而且还有一些字像画一样,不能用部首输入,也不能拆分。此前甲骨文输入法采用编码输入方式,记忆负担较重,学习成本较高。”刘永革说。
因此,研发甲骨文输入法,建立一个基本字库,让任何人都可以轻松输入,至关重要。
“用计算机技术研究甲骨文的编码、字库、输入法、数据库建设,为专家提供一些工具,辅助甲骨文研究,这是我们建立甲骨文数据库的初衷。”刘永革说。
可只有技术优势显然不够。为了学习最新的甲骨文研究成果,每当有甲骨文或古文字研究专家到安阳,刘永革和团队成员一定想方设法当面请教;当地、外地召开的甲骨文学术研究会议,时间再紧他们也要参加……随着了解越来越深入,刘永革发现,甲骨文作为中华民族最古老的文字,因晦涩难懂和研究资料较少,与现代技术不兼容,研究效率低下。
如何共享甲骨文的研究信息,让全人类资源互通、群力群策一起研究呢?刘永革他们决定利用自己的专业,让甲骨文这一“冷门”绝学“热”起来。
于是,一个汇集甲骨文信息的“殷契文渊”项目悄然启动。刘永革带领团队30多名老师和50多名学生,对甲骨研究的权威资料逐条、逐页进行扫描、裁切、编号,寻找释文。
2019年,团队用8年时间精心打造的全球首个免费甲骨文数据库“殷契文渊”惊艳亮相。该平台建设的甲骨文字库包含单字5086个、字形6234个,甲骨文研究文献3万多篇,支持多种甲骨文输入检索方式。
“此前甲骨文资料很难查到,即使甲骨文专家也不可能拥有全部资料,‘殷契文渊’项目建成后解决了这个问题。”甲骨文信息处理教育部重点实验室副主任高峰说。
据介绍,平台接下来将继续补充基础数据,同时采用人工智能技术进行数据分析,包括甲骨文识别与字形分析、甲骨文语言计算、甲骨文知识图谱、计算机自动缀合甲骨文系统等,有可能成为海内外最详赡、最完备的甲骨文大数据平台。
与此同时,安阳师范学院还积极整合校内资源, *** 文学、历史、计算机、体育等专业优势,形成了一支跨专业、多学科联合攻关的学术团队——甲骨文信息化处理团队。凭借已经建成的甲骨文数据库优势,该团队开始尝试利用语言学、数学、计算机科学、信息技术对甲骨文进行语义、语法处理和知识挖掘。
“利用人工智能技术破译甲骨文,让科技赋能甲骨文研究,揭开一片片甲骨背后的文明密码,讲好甲骨文的故事。”刘永革说,他们要将甲骨文研究带入新的智能化时代。
(来源 河南日报)