网易首页 > 网易山东 > 正文

打开“用”与“藏”环环相扣的铁锁

0
分享至

手写或印刷在薄薄宣纸上的方块汉字走出“深闺”,古籍数字化像一把钥匙……

打开“用”与“藏”环环相扣的铁锁

孔子博物馆藏《乾隆御定石经》初拓本

□ 本报记者 卢 昱

40余种珍贵宋元刻本、写本,著名藏书楼嘉业堂、密韵楼的抄本,文澜阁《四库全书》零本……近日,这批珍藏于美国加州大学伯克利分校的中文古籍善本,以数字化方式进驻“汉典重光”古籍平台(网址为)。

古籍中那些手写或印刷在薄薄宣纸上的方块汉字,经过数字化,飘起在“云端”,文化积淀又有了新的保存与光大的途径。

钱钟书的敏锐与远见

据统计,目前全国各公藏单位拥有古籍总量超过5000万册,需要修复的古籍约1500万册。即使在古籍不再继续遭到破坏的前提下,以当前的修复人才及修复条件计算,要完成全部修复工作仍需数百年。

古籍文献集文物价值和学术价值于一身。从保护的角度看,古籍应在合适的环境中收藏,尽量减少在普通环境中的时间,降低使用时可能带来的损伤。有测试表明,一部宋元古籍,离开专用书库,置于普通阅览室中供人翻阅一小时,其寿命就会缩短数月。

从利用的角度看,古籍若沉睡在库房,就无法发挥其价值,而且许多学者的研究与古籍内容息息相关。此时,古籍数字化像一把钥匙,打开了“用”与“藏”环环相扣的铁锁。

事实上,“古籍”与“数字化”已相遇三十余年。

古籍数字化,最初扎根在红学研究领域。在1980年国际红学会议上,美籍华裔学者陈炳藻提交《从字汇上的统计论红楼梦的作者问题》,提出用计算机统计《红楼梦》的字词,以辅助确定《红楼梦》尤其是后四十回作者的问题。国外的这些信息激发了国内部分学者的兴趣,他们开始关注并尝试将计算机技术应用于人文研究。

受此启发,镇江的红学研究者彭昆仑开始利用计算机程序探讨《红楼梦》人物年龄的问题。1985年他调到镇江市科委后,又与东南大学(原南京工学院)合作完成《红楼梦》数据库。此后,深圳大学建成“红楼梦多功能检索系统”。

1980年前后,钱钟书的女儿钱瑗到英国访学,看到英国学者用电脑储存、查阅莎士比亚的资料。回国后,她把这一信息告诉钱钟书。钱钟书敏锐地意识到这一新鲜事物的价值,让助手栾贵明从事相关研究。

在钱钟书的指导下,栾贵明主持的课题组先后完成“《论语》数据库”“《全唐诗》速检系统”等课题,并荣获1990年“国家科技进步奖”三等奖。这些都是利用计算机进行人文研究的早期实践。

当时,古籍数字化还在萌芽状态。在1987年12月人民日报出版社出版的《论语数据库》一书卷首,钱钟书写道:“从理论上来说,计算机和人类使用过的其他工具没有什么性质的不同。它在还未被人广泛使用的时候,除自身尚待完善以外,总会遭到一些抵拒。惯用旧家什的人依然偏爱着他们熟悉的工具。有了纸墨笔砚‘文房四宝’,准还有人用刀笔和竹简;有了汽车、飞机、电报电话,也还有不惜体力和时间的保守者。对新事物的抗拒是历史上常有的现象,抗拒新事物到头来的失败也是历史常给人的教训。”——当前古籍数字化的潮流,可说是对他远见的最好褒奖。

数字古籍为“母本”代言

上世纪九十年代后期,古籍文献数据库的建设步入快车道。

1996年,书同文公司启动的文渊阁《四库全书》电子版是一个标志性工程,被誉为大型中文电子出版工程的典范。该工程动用300名校录人员、60名技术、学术和管理人员,历时三年多完成。

而今,国家图书馆的“中华古籍资源库”已在线发布超过3.3万部的古籍影像;中华书局的“中华经典古籍库”已发布3000多种、15亿字的点校本古籍;爱如生公司的“中国基本古籍库”收书1万种,既有可供检索的全文,又提供古籍原版图像;像家谱、方志、中医药等专类古籍在多地兴起……

除了以上大而强的综合数据库,在网络上,很多古籍爱好者,出于热爱和自觉,建立古籍数据库,如“书格”“殆知阁”等,与以上数据库多头掘进,共同成为诸多文史研究者的助手。

近年来,古籍数字化在服务于学术研究方面,立功颇多。比如中南民族大学王兆鹏主持的“唐宋文学编年系地信息平台”、浙江大学徐永明团队与哈佛大学共建的“学术地图发布平台”、中国社科院刘京臣的“宋代文学地图数字分析平台研究”等值得关注的数字人文成果,其平台的建设离不开数字化古籍的基础作用。

而数字化之后,古籍“母本”不再需要冒着各种风险“抛头露脸”。与此同时,数字化的古籍,可以走出“深闺”,像孙悟空一般实现七十二种变化,在不同时间满足不同地域读者的阅读需求,实现一对多、点对面、虚对实的变化。

在山东,古籍数字化的步伐也在同步跟进。据山东省图书馆历史文献部主任、研究馆员杜云虹介绍,省图在2013年发布“山东省图书馆古籍珍本数据库”,收入数字化古籍资源近1000种,共计10万余拍,内容涵盖从明代至民国不同时期、不同类型的经史子集四部类古籍资源;2018年,省图将数字化的馆藏《永乐南藏》1600余部佛经、204592拍、587764页,在网络上公开发布;目前,省图已完成“易学古籍数据库”建设,实现6164种易学古籍书目在线检索和其中900种易学古籍的数字化……

“现在,古籍普查工作还没有最终完成。我们要摸清家底,古籍数字化不是一朝一夕的事儿,要在保护好古籍的前提下,做好规划,清楚哪些工作是最迫切的,不能零打碎敲地做,更不能盲目开发利用。”杜云虹说。

对于如何用好“在云端”的古籍宝库,杜云虹分析道:“怎么让古籍里的文字活起来,让大家觉得不很遥远,有很多工作要做。央视的节目《典籍里的中国》,讲述典籍传承文明的故事,是很好的尝试。”

当阿里涉足古籍

“电商巨头阿里涉足古籍行业。这在电商行业意味着什么我不清楚,但在古籍领域确实算得上一个大新闻。”网友“人生五味”评价道。

阿里巴巴达摩院院长张建锋表示,达摩院自2017年起接触古籍数字化领域,2019年正式参与由阿里巴巴公益基金会、四川大学、美国加州大学伯克利分校、中国国家图书馆、浙江图书馆合作开展的“汉典重光”项目,旨在寻觅流散海外的中国古籍并将其数字化、公共化,让普通人也能亲近古籍,通过古籍与先贤对话、与优秀传统文化对话。

目前,首批20万页古籍已完成数字化,并沉淀为覆盖3万多字的古籍字典,公众可通过“汉典重光”平台翻阅、检索古籍。记者打开平台网页,试着搜索“山东”“济南”等关键词,跳出《战国策》《通鉴纲目》《河防一览》等结果,皆可定点查询、锁定。相较于其他成熟的数据库,“汉典重光”后台的数据量还偏小,在使用时也有一些不够流畅之处。

新潮的阿里似乎对陈旧的古籍还不太熟悉,但这种“相逢”正探寻着古籍数字化的新路径。

据悉,古籍数字化大概有以下流程:采集侧,将纸质书变为电子扫描版;生产侧,将电子扫描版变为文字版;应用侧,将文字版变为古籍研学系统,涵盖检索、字典、知识图谱等功能。

目前,古籍数字化在采集侧、生产侧有两种方法。第一种是纯人工录入,如一本书有10万字,人工把10万字输入计算机。像《四库全书》的编修,就是纸书时代的“人工录入”,当年在乾隆皇帝的主持下,纪昀等360多位高官、学者参与丛书编修,一共用了3800多人、耗时13年才完成。《四库全书》包含3462种书、7.9万余卷、3.6万余册,总字数约10亿。在当下,已很难找到并组织众多精通古文字的专家,如此专注、数十年如一日地来做录入工作。

第二种是计算机与人工结合,计算机利用文字识别技术提取一部分文字,计算机无法识别的文字则由人类专家手动录入,最终再由人工进行检校。这一技术路线虽探索多年,但始终没能让识别效率大幅提升。原因主要在于:计算机能识得的古籍文字极为有限,若用传统的机器学习方法“教会”计算机海量的古籍文字,得先提供海量的标注数据,用于训练识别模型。而古籍文字没有现成的标注数据,需要懂古文的专业人士手动标注,可能比人工直接录入的工作量更大、成本更高。

面对海量无标注的数据,如何让AI(人工智能)快速批量识别古籍,始终是古籍数字化领域的技术瓶颈。对此,阿里巴巴达摩院技术团队与四川大学专家联手,在第二种技术方法的基础上,研发了一套全新的识别系统。

首先是全书检测,把古籍正文中的每个字都抠出来,作为单独的一张图;然后进行聚类,一本古籍总字数可能有10万字,但其中有很多字是重复的,比如“之”“乎”“者”“也”等,聚类就是让机器自动把字形笔画一致的字归为一类,接着再由专家进行标注。原本全部要人工标注10万字的书,经过聚类,只需要对二三千字类进行标注即可,一类字只需标注一次。

聚类和人工标注,不仅完成了每一类文字的认字过程,还收获了更多新的训练样本,可以继续喂给机器学习。古籍里有很多生僻字、异体字、异形字,出现概率极低,几乎找不到样本。对此,达摩院团队使用字体迁移方法,让机器自动为每个字合成几个新样本,确保单字样本量达到10个,用来训练少样本识别模型。

从聚类到少样本模型识别,走完一轮,全书70%左右的文字可以被打上正确的标签,余下的部分将从头再来一遍,进行第二轮迭代,又能解决余下文字中的70%。经过两轮迭代,一本书91%的文字可以被识别。如此,通过不断的学习,训练数据越来越多,机器的认字能力也越来越强。

在复杂的算法养成过程中,人工标注的工作量被大大降低。“经过反复的学习和提升,目前达摩院系统对伯克利20万页古籍的整体识别准确率达到了97.5%。这套人机交互的识别方案,录入效率比纯人工输入提升了近30倍。”张建锋说。

张建锋表示,守护中华传世典籍,是科技工作者和文化工作者共同的使命。阿里计划将这套技术工具连同古籍数字化平台一并捐赠,交由权威公共机构长期运营;同时,阿里仍将在古籍数字化工作上持续投入人力、物力。

相关推荐
热点推荐
波兰升第一,日本进前三,中国渐入佳境,世联最新排位

波兰升第一,日本进前三,中国渐入佳境,世联最新排位

刺头体育
2023-06-02 22:27:02
韩国调查:中国在东盟电动汽车市场占有率居首位,超过韩国

韩国调查:中国在东盟电动汽车市场占有率居首位,超过韩国

澎湃新闻
2023-05-31 17:59:07
9月1日起,中小学将推行“5+4”学制?教育部有了正面解答

9月1日起,中小学将推行“5+4”学制?教育部有了正面解答

真知媒评君
2023-06-02 18:22:07
杨幂香港近况曝光:陪9岁女儿过节,3年未见女儿,刘丹带着小糯米

杨幂香港近况曝光:陪9岁女儿过节,3年未见女儿,刘丹带着小糯米

影像温度
2023-06-01 16:14:47
丰田到底有多可怕,内行人:丰田强大到几乎让所有的车企甘拜下风

丰田到底有多可怕,内行人:丰田强大到几乎让所有的车企甘拜下风

触达资讯
2023-06-02 07:10:31
2名老师溺亡原因曝光,冤枉彭某琴了吗?请毕节公布真相

2名老师溺亡原因曝光,冤枉彭某琴了吗?请毕节公布真相

平老师教育资讯888
2023-06-02 23:53:36
中国大批取消美订单后,拜登对华示好,或取消中国商品加征关税

中国大批取消美订单后,拜登对华示好,或取消中国商品加征关税

海纳观察室
2023-06-02 09:38:45
法媒感叹:“中国取得惊人突破”

法媒感叹:“中国取得惊人突破”

参考消息
2023-06-02 09:26:43
突发!新增4个中美航班,将避开俄领空飞行?究竟怎么飞?

突发!新增4个中美航班,将避开俄领空飞行?究竟怎么飞?

旅游圈大小事
2023-06-03 00:06:55
韩媒:中国人和我们格格不入,我们花7600亿科研他们却不在意

韩媒:中国人和我们格格不入,我们花7600亿科研他们却不在意

金猴生活社
2023-06-02 11:19:51
2030前,不要再误判房产走势,看看这6个社会现象,准确率超想象

2030前,不要再误判房产走势,看看这6个社会现象,准确率超想象

专业聊房君
2023-06-02 22:24:39
朱婷之后,终于又有中国球员被外国球迷称为“怪物”,她就是12号

朱婷之后,终于又有中国球员被外国球迷称为“怪物”,她就是12号

小鱼儿嘴球
2023-06-03 01:35:48
麦迪:我在13马刺毫无贡献 所以我感觉自己不是那支球队的一份子

麦迪:我在13马刺毫无贡献 所以我感觉自己不是那支球队的一份子

直播吧
2023-06-02 19:49:06
抱着上厕所,吃饭要人喂,小S和具俊晔是在合力给大S造巨婴人设吗

抱着上厕所,吃饭要人喂,小S和具俊晔是在合力给大S造巨婴人设吗

88娱乐大咖
2023-06-02 06:02:59
“利民好工程”!统租介入深圳城中村:断了底层打工人的生路

“利民好工程”!统租介入深圳城中村:断了底层打工人的生路

小诸葛拜仁主席霍内斯
2023-06-02 12:18:05
电击一下就能“不老”?64岁科学家拿自己做实验,5年减龄28岁

电击一下就能“不老”?64岁科学家拿自己做实验,5年减龄28岁

答案在这儿
2023-06-02 15:02:30
360度大反转!陈梦王楚钦恋情谜底揭晓,大头深夜摊牌,恭喜一姐

360度大反转!陈梦王楚钦恋情谜底揭晓,大头深夜摊牌,恭喜一姐

二哥聊球
2023-06-02 15:32:56
华南理工“学术妲己”火遍全网,男女主身份被扒,果然不是一般人

华南理工“学术妲己”火遍全网,男女主身份被扒,果然不是一般人

饭桶说史
2023-06-03 00:55:02
看懂沙利文在布鲁金斯学会演讲,会对我们理解中美关系有很大帮助

看懂沙利文在布鲁金斯学会演讲,会对我们理解中美关系有很大帮助

军嫂篮球
2023-06-02 21:31:10
证明你已经不再年轻的15个表现,第一个就扎心了……

证明你已经不再年轻的15个表现,第一个就扎心了……

健身迷
2023-06-02 09:44:35
2023-06-03 08:46:44

头条要闻

外媒:美国防长跨越2个座位主动走来与中国防长握手

头条要闻

外媒:美国防长跨越2个座位主动走来与中国防长握手

财经要闻

体育要闻

张帅:为了生存 我不能停止奔跑

娱乐要闻

约旦王储娶建筑师,新娘气质清冷

科技要闻

马化腾说要“收紧队形”,到底啥意思?

汽车要闻

插混大五座SUV 魏牌新摩卡DHT-PHEV售23.18万

态度原创

本地
艺术
教育
亲子
公开课

本地新闻

“颜色釉女王”邓希平:让历史的技艺重现光芒

艺术要闻

构建书法教育的传承体系 寇学臣书教育人展在北京隆重举行

教育要闻

蓝海变红海,高考志愿填报咋就这么火?

亲子要闻

宝宝有这2个习惯,应该要留心眼,可能过度喂养

公开课

40岁广东男子,每晚夜跑6公里,一年后:

无障碍浏览 进入关怀版