网易首页 > 网易山东 > 正文

打开“用”与“藏”环环相扣的铁锁

0
分享至

手写或印刷在薄薄宣纸上的方块汉字走出“深闺”,古籍数字化像一把钥匙……

打开“用”与“藏”环环相扣的铁锁

孔子博物馆藏《乾隆御定石经》初拓本

□ 本报记者 卢 昱

40余种珍贵宋元刻本、写本,著名藏书楼嘉业堂、密韵楼的抄本,文澜阁《四库全书》零本……近日,这批珍藏于美国加州大学伯克利分校的中文古籍善本,以数字化方式进驻“汉典重光”古籍平台(网址为)。

古籍中那些手写或印刷在薄薄宣纸上的方块汉字,经过数字化,飘起在“云端”,文化积淀又有了新的保存与光大的途径。

钱钟书的敏锐与远见

据统计,目前全国各公藏单位拥有古籍总量超过5000万册,需要修复的古籍约1500万册。即使在古籍不再继续遭到破坏的前提下,以当前的修复人才及修复条件计算,要完成全部修复工作仍需数百年。

古籍文献集文物价值和学术价值于一身。从保护的角度看,古籍应在合适的环境中收藏,尽量减少在普通环境中的时间,降低使用时可能带来的损伤。有测试表明,一部宋元古籍,离开专用书库,置于普通阅览室中供人翻阅一小时,其寿命就会缩短数月。

从利用的角度看,古籍若沉睡在库房,就无法发挥其价值,而且许多学者的研究与古籍内容息息相关。此时,古籍数字化像一把钥匙,打开了“用”与“藏”环环相扣的铁锁。

事实上,“古籍”与“数字化”已相遇三十余年。

古籍数字化,最初扎根在红学研究领域。在1980年国际红学会议上,美籍华裔学者陈炳藻提交《从字汇上的统计论红楼梦的作者问题》,提出用计算机统计《红楼梦》的字词,以辅助确定《红楼梦》尤其是后四十回作者的问题。国外的这些信息激发了国内部分学者的兴趣,他们开始关注并尝试将计算机技术应用于人文研究。

受此启发,镇江的红学研究者彭昆仑开始利用计算机程序探讨《红楼梦》人物年龄的问题。1985年他调到镇江市科委后,又与东南大学(原南京工学院)合作完成《红楼梦》数据库。此后,深圳大学建成“红楼梦多功能检索系统”。

1980年前后,钱钟书的女儿钱瑗到英国访学,看到英国学者用电脑储存、查阅莎士比亚的资料。回国后,她把这一信息告诉钱钟书。钱钟书敏锐地意识到这一新鲜事物的价值,让助手栾贵明从事相关研究。

在钱钟书的指导下,栾贵明主持的课题组先后完成“《论语》数据库”“《全唐诗》速检系统”等课题,并荣获1990年“国家科技进步奖”三等奖。这些都是利用计算机进行人文研究的早期实践。

当时,古籍数字化还在萌芽状态。在1987年12月人民日报出版社出版的《论语数据库》一书卷首,钱钟书写道:“从理论上来说,计算机和人类使用过的其他工具没有什么性质的不同。它在还未被人广泛使用的时候,除自身尚待完善以外,总会遭到一些抵拒。惯用旧家什的人依然偏爱着他们熟悉的工具。有了纸墨笔砚‘文房四宝’,准还有人用刀笔和竹简;有了汽车、飞机、电报电话,也还有不惜体力和时间的保守者。对新事物的抗拒是历史上常有的现象,抗拒新事物到头来的失败也是历史常给人的教训。”——当前古籍数字化的潮流,可说是对他远见的最好褒奖。

数字古籍为“母本”代言

上世纪九十年代后期,古籍文献数据库的建设步入快车道。

1996年,书同文公司启动的文渊阁《四库全书》电子版是一个标志性工程,被誉为大型中文电子出版工程的典范。该工程动用300名校录人员、60名技术、学术和管理人员,历时三年多完成。

而今,国家图书馆的“中华古籍资源库”已在线发布超过3.3万部的古籍影像;中华书局的“中华经典古籍库”已发布3000多种、15亿字的点校本古籍;爱如生公司的“中国基本古籍库”收书1万种,既有可供检索的全文,又提供古籍原版图像;像家谱、方志、中医药等专类古籍在多地兴起……

除了以上大而强的综合数据库,在网络上,很多古籍爱好者,出于热爱和自觉,建立古籍数据库,如“书格”“殆知阁”等,与以上数据库多头掘进,共同成为诸多文史研究者的助手。

近年来,古籍数字化在服务于学术研究方面,立功颇多。比如中南民族大学王兆鹏主持的“唐宋文学编年系地信息平台”、浙江大学徐永明团队与哈佛大学共建的“学术地图发布平台”、中国社科院刘京臣的“宋代文学地图数字分析平台研究”等值得关注的数字人文成果,其平台的建设离不开数字化古籍的基础作用。

而数字化之后,古籍“母本”不再需要冒着各种风险“抛头露脸”。与此同时,数字化的古籍,可以走出“深闺”,像孙悟空一般实现七十二种变化,在不同时间满足不同地域读者的阅读需求,实现一对多、点对面、虚对实的变化。

在山东,古籍数字化的步伐也在同步跟进。据山东省图书馆历史文献部主任、研究馆员杜云虹介绍,省图在2013年发布“山东省图书馆古籍珍本数据库”,收入数字化古籍资源近1000种,共计10万余拍,内容涵盖从明代至民国不同时期、不同类型的经史子集四部类古籍资源;2018年,省图将数字化的馆藏《永乐南藏》1600余部佛经、204592拍、587764页,在网络上公开发布;目前,省图已完成“易学古籍数据库”建设,实现6164种易学古籍书目在线检索和其中900种易学古籍的数字化……

“现在,古籍普查工作还没有最终完成。我们要摸清家底,古籍数字化不是一朝一夕的事儿,要在保护好古籍的前提下,做好规划,清楚哪些工作是最迫切的,不能零打碎敲地做,更不能盲目开发利用。”杜云虹说。

对于如何用好“在云端”的古籍宝库,杜云虹分析道:“怎么让古籍里的文字活起来,让大家觉得不很遥远,有很多工作要做。央视的节目《典籍里的中国》,讲述典籍传承文明的故事,是很好的尝试。”

当阿里涉足古籍

“电商巨头阿里涉足古籍行业。这在电商行业意味着什么我不清楚,但在古籍领域确实算得上一个大新闻。”网友“人生五味”评价道。

阿里巴巴达摩院院长张建锋表示,达摩院自2017年起接触古籍数字化领域,2019年正式参与由阿里巴巴公益基金会、四川大学、美国加州大学伯克利分校、中国国家图书馆、浙江图书馆合作开展的“汉典重光”项目,旨在寻觅流散海外的中国古籍并将其数字化、公共化,让普通人也能亲近古籍,通过古籍与先贤对话、与优秀传统文化对话。

目前,首批20万页古籍已完成数字化,并沉淀为覆盖3万多字的古籍字典,公众可通过“汉典重光”平台翻阅、检索古籍。记者打开平台网页,试着搜索“山东”“济南”等关键词,跳出《战国策》《通鉴纲目》《河防一览》等结果,皆可定点查询、锁定。相较于其他成熟的数据库,“汉典重光”后台的数据量还偏小,在使用时也有一些不够流畅之处。

新潮的阿里似乎对陈旧的古籍还不太熟悉,但这种“相逢”正探寻着古籍数字化的新路径。

据悉,古籍数字化大概有以下流程:采集侧,将纸质书变为电子扫描版;生产侧,将电子扫描版变为文字版;应用侧,将文字版变为古籍研学系统,涵盖检索、字典、知识图谱等功能。

目前,古籍数字化在采集侧、生产侧有两种方法。第一种是纯人工录入,如一本书有10万字,人工把10万字输入计算机。像《四库全书》的编修,就是纸书时代的“人工录入”,当年在乾隆皇帝的主持下,纪昀等360多位高官、学者参与丛书编修,一共用了3800多人、耗时13年才完成。《四库全书》包含3462种书、7.9万余卷、3.6万余册,总字数约10亿。在当下,已很难找到并组织众多精通古文字的专家,如此专注、数十年如一日地来做录入工作。

第二种是计算机与人工结合,计算机利用文字识别技术提取一部分文字,计算机无法识别的文字则由人类专家手动录入,最终再由人工进行检校。这一技术路线虽探索多年,但始终没能让识别效率大幅提升。原因主要在于:计算机能识得的古籍文字极为有限,若用传统的机器学习方法“教会”计算机海量的古籍文字,得先提供海量的标注数据,用于训练识别模型。而古籍文字没有现成的标注数据,需要懂古文的专业人士手动标注,可能比人工直接录入的工作量更大、成本更高。

面对海量无标注的数据,如何让AI(人工智能)快速批量识别古籍,始终是古籍数字化领域的技术瓶颈。对此,阿里巴巴达摩院技术团队与四川大学专家联手,在第二种技术方法的基础上,研发了一套全新的识别系统。

首先是全书检测,把古籍正文中的每个字都抠出来,作为单独的一张图;然后进行聚类,一本古籍总字数可能有10万字,但其中有很多字是重复的,比如“之”“乎”“者”“也”等,聚类就是让机器自动把字形笔画一致的字归为一类,接着再由专家进行标注。原本全部要人工标注10万字的书,经过聚类,只需要对二三千字类进行标注即可,一类字只需标注一次。

聚类和人工标注,不仅完成了每一类文字的认字过程,还收获了更多新的训练样本,可以继续喂给机器学习。古籍里有很多生僻字、异体字、异形字,出现概率极低,几乎找不到样本。对此,达摩院团队使用字体迁移方法,让机器自动为每个字合成几个新样本,确保单字样本量达到10个,用来训练少样本识别模型。

从聚类到少样本模型识别,走完一轮,全书70%左右的文字可以被打上正确的标签,余下的部分将从头再来一遍,进行第二轮迭代,又能解决余下文字中的70%。经过两轮迭代,一本书91%的文字可以被识别。如此,通过不断的学习,训练数据越来越多,机器的认字能力也越来越强。

在复杂的算法养成过程中,人工标注的工作量被大大降低。“经过反复的学习和提升,目前达摩院系统对伯克利20万页古籍的整体识别准确率达到了97.5%。这套人机交互的识别方案,录入效率比纯人工输入提升了近30倍。”张建锋说。

张建锋表示,守护中华传世典籍,是科技工作者和文化工作者共同的使命。阿里计划将这套技术工具连同古籍数字化平台一并捐赠,交由权威公共机构长期运营;同时,阿里仍将在古籍数字化工作上持续投入人力、物力。

相关推荐
热点推荐
塞进去容易拔出来难, 妹子着急死了 哈哈哈 真的尴尬啊

塞进去容易拔出来难, 妹子着急死了 哈哈哈 真的尴尬啊

笑劈叉了
2023-01-28 08:00:22
柳叶刀:感染新冠后,出现长期后遗症的比例或达1/8

柳叶刀:感染新冠后,出现长期后遗症的比例或达1/8

生物世界
2023-01-30 12:21:06
他当过江西省委书记,1967年被迫下台,儿子曾担任保利集团董事长

他当过江西省委书记,1967年被迫下台,儿子曾担任保利集团董事长

西城历史旧事
2023-01-30 23:51:13
内娱真的完了!都美竹都开始拍戏了

内娱真的完了!都美竹都开始拍戏了

游戏告解室
2023-01-30 16:16:40
最新消息:中国抗新冠特效药研制成功,比Paxlovid更有效!

最新消息:中国抗新冠特效药研制成功,比Paxlovid更有效!

山东讯息
2023-01-31 10:47:02
电视剧热度大洗牌!《狂飙》被挤下冠军王座,榜首到底凭啥这么横

电视剧热度大洗牌!《狂飙》被挤下冠军王座,榜首到底凭啥这么横

康哥聊娱乐
2023-01-31 11:08:17
“绿得也太突然,电影都不敢这么演,比中500彩票的概率还低啊!”哈哈哈~

“绿得也太突然,电影都不敢这么演,比中500彩票的概率还低啊!”哈哈哈~

相声精选杂货店
2023-01-30 07:55:24
快讯!美国送给乌克兰军队的152门M-777A2超轻型榴弹炮,已经被俄军击毁了至少70门!!

快讯!美国送给乌克兰军队的152门M-777A2超轻型榴弹炮,已经被俄军击毁了至少70门!!

孙玉希军事
2023-01-31 11:54:32
50岁郑中基一家四口同框贺新年,43岁余思敏频频暗示,疑怀三胎

50岁郑中基一家四口同框贺新年,43岁余思敏频频暗示,疑怀三胎

娱站
2023-01-30 23:35:03
梅德韦杰夫警告:如果第三次世界大战爆发……

梅德韦杰夫警告:如果第三次世界大战爆发……

环球时报新闻
2023-01-29 11:52:01
震惊!传以宣传俄军英勇善战闻名的俄美女记者采访时遭俄军殴打

震惊!传以宣传俄军英勇善战闻名的俄美女记者采访时遭俄军殴打

门卫秦大爷看世界
2023-01-31 12:46:29
理想销量夺冠后院却起火,员工不满年终奖打折

理想销量夺冠后院却起火,员工不满年终奖打折

车云网
2023-01-30 22:00:18
中方代表好话说尽,欧盟高层并不领情,反而想着要把事情做绝

中方代表好话说尽,欧盟高层并不领情,反而想着要把事情做绝

老高评论
2023-01-30 13:11:54
美国收了土耳其14亿美元战机预付款,土总统吐槽:现在既不给飞机也不退钱

美国收了土耳其14亿美元战机预付款,土总统吐槽:现在既不给飞机也不退钱

极目新闻
2023-01-30 16:46:18
王传君:江疏影是我们班的女一号,除了皮肤白之外,好像就很平庸

王传君:江疏影是我们班的女一号,除了皮肤白之外,好像就很平庸

妍如说娱乐
2023-01-28 15:59:33
名宿:梅西从来没有防守过,MSN永远不会or只是偶尔防一下

名宿:梅西从来没有防守过,MSN永远不会or只是偶尔防一下

直播吧
2023-01-31 10:43:03
斯洛伐克小姐Veronika Rajek到底喜欢哪支球队?

斯洛伐克小姐Veronika Rajek到底喜欢哪支球队?

陈宏爱娱乐
2023-01-30 16:27:12
男子对女子说她没穿裤子,女子掀开裙子证明,一旁的路人哈哈大笑

男子对女子说她没穿裤子,女子掀开裙子证明,一旁的路人哈哈大笑

人文新鲜事
2023-01-30 13:12:02
狂飙【连载】:孟德海自首,高启强被砍,杨健被捕让赵立冬疯狂

狂飙【连载】:孟德海自首,高启强被砍,杨健被捕让赵立冬疯狂

小杨历史
2023-01-31 12:26:03
玄彬孙艺珍球场甜蜜约会,终于曝正脸啦!玄彬留小胡须太爷们

玄彬孙艺珍球场甜蜜约会,终于曝正脸啦!玄彬留小胡须太爷们

轨轨畅谈汇
2023-01-31 09:57:16
2023-01-31 14:32:49

头条要闻

9省份省级公安系统"一把手"调整 一人任职情况很罕见

头条要闻

9省份省级公安系统"一把手"调整 一人任职情况很罕见

财经要闻

体育要闻

活该你赢!三笘薫的论文 英超后卫的噩梦

娱乐要闻

甘比晒10岁儿子压岁钱 面值让人意外

科技要闻

比亚迪去年净利破百亿,今年能卖得过特斯拉吗

汽车要闻

基于概念车打造 奥迪全新A8将2024年发布

态度原创

手机
教育
健康
艺术
时尚

手机要闻

iPhone卖成了中国第一!为啥大家越来越喜欢买苹果不买安卓?原因揭秘

教育要闻

为什么说尽量别带孩子去海洋馆?希望每个家长都引起重视

草莓怎么洗才干净?

艺术要闻

鉴赏|古罗马“绝美之境”,再看诸神光芒

香港富豪刘銮雄拍卖77只名包 最贵的估值达200万

无障碍浏览 进入关怀版