浅谈数字化古籍数字化若干成就及理由

更新时间:2024-01-30 作者:用户投稿原创标记本站原创
摘要:伴随信息技术的发展和进步,古籍数字化相对来说是一个新领域,它与文化传承、文献保护、古籍整理紧密相关。本文首先谈起了古籍数字化的主要成就,然后介绍了目前中文古籍数字化工程所面临的问题,并进一步对古籍数字化进程中的问题给出了一些建设性的建议,为同行作参考。
关键词:数字化;古籍软件;成就;挑战
:A文章编号:1007-9599 (2012) 13-0000-02
一、引言
自古以来,古籍是我们的祖先留给我们的最珍贵的精神财富遗产。据不完全统计,古籍的存在,有大约130,000种。他们有一部分的收集掌握在私人手中,也有一部分分布在各地的图书馆中以及国外和国内的科研院里面。在很早以前古籍整理都依赖手工,这样不仅低效、而且费力。

二、古籍数字化工程的主要成就

古籍的数字化,其实质就是怎么用数字化媒体来承载古籍。我国的古籍数字化至今已走过20多年的发展历程。它起步于20世纪80年代,发展于90年代中后期。从目前的情况下看,在国内古籍数字化的工作还是主要依赖于如社科院文献信息中心等学术型研究机构和北京大学等学校,如迪志、汉文化联盟的出版社,还有一些像北京书同文、超星等专门技术公司,以及公共图书馆(如上海图书馆、北京图书馆),并且已经有大量的优秀的成果问世。

(一)为古籍整理的检索提供了高效的工具

以《国学宝典》为例,《国学宝典》大型古籍文献数据库全文检索系统,含二千多部重要古籍文献,具有全文逐字索引、字词频统计、智能模糊查询、自动卡片生成等功能,极大地满足了科研开发和学术研究的需要,在统计分析、主题查找、古书辑佚辞书编纂、等方面具有极大的辅助作用。《国学宝典》不仅为古籍整理后研究成果的出版创造了方便条件,同时也为古籍资源了高效的工具。

(二)解决了古籍的保护与使用之间的矛盾

我国古籍是我们的前人给后人最宝贵的遗产,数量一般不会有大的增加。一直以来,我们对估计进行物理和化学保护,实行防霉、防虫等基础工作,为了保护古籍,许多古籍保存单位严格限制古籍使用这就使得书不能不使用,不能发挥它应有的作用。古籍保存是一个问题,但是数字产品却易于保存,所以只有通过将古籍制成数字产品就可以真正的达到永久保存的目的,这些史料就会被人们充分的利用和共享。

(三)目前已经完成和开发了大量的古籍数字化相关工程

在我国古籍数字化在20世纪90年代中期以后才算是真正的得到迅速的发展。当时一些比较大的商业公司、学术机构和出版单位开始对古籍的数字化产生兴趣,开始着手古籍数字化的工作,所以就开始迅速扩大古籍数字化的规模。例国学公司推出了《国学宝典》等系列产品。如北京大学图书馆推出了“秘籍琳琅”项目,北京大学“中国基本古籍库”光盘工程。该工程正式启动于1998年,共500张光盘库,分哲学、史地、艺文、综合4个子库20个大类,范围涉及先秦至民国的重要典籍1万余种,并提供多重检索功能,每种典籍有1个通行版本的全文信息,另附1-2个珍贵版本的图像数据,预计全文20亿字、版本图像2千万页。书同文公司推出的《四部丛刊》的全文检索版。中华书局正在进行的中华古籍语料库的建设。
另外还有一些个人和机构都对古籍进行了数字化工作。在整理的过程中,人们对古籍实现数字化的原则、数字化古籍资源的特征等基本问题的认识都会有一定的加深,这些个人和机构经过持续的研究和试验,对我国古籍数字化实现的一些关键性技术也做出了不少的贡献,使得估计数字化也取得了很明显进展。

三、古籍数字化工程所面临问题

在我国古籍数字化是具有很大的现实意义,在充分挖掘古籍的史料价值和文化价值的基础上,对古籍的长久保存发挥重要作用,但是也面临这很大的问题。

(一)重复建设严重

我国分散各地,并且古籍数量十分庞大。目前,我国的数字化古籍整理没有一个统一的结构,来做出一个统一的协调与指导。一般都是单独开发。而古籍数字化工作基本上处于一种缺乏宏观调控和管理的状态,古籍整理出版规划也并没有明确规定古籍数字化的规划问题,重复性建设严重。很多开发单位各自为政,也大量的造成冷门项目少有问津,热点项目重复建设。就拿《四库全书》为例,它是我国历史上规模最大的从书,单是1998年一年内就至少出源于:论文的基本格式www.808so.com
现了3种不同的光盘版,这就造成了很大的浪费,很大程度上阻碍了我国古籍数字化的发展。

(二)录用字时的识别和检索问题

古籍汉字识别的规模一般是很大的,这就使得工作变得困难重重,所以专家就要对古籍汉字识别进行严格控制,对于一些大型古籍数据库,由于操作人员本身的知识水平,就很难识别古籍中的异形(体)字、俗字,不得不“照搬照画”,其结果就是大量生造的字,这不仅仅增加了检索“模糊度”,还会出现一大堆生造的繁简字、俗字、异形(体)字。这些生造的字,对资源的共享造成了很大的困难,另外还有一些制作单位,可能会因为一些识字,采取替代法来代替一些疑难字符,这就很大程度上违背了真实性。另外,从目前看来,现行的繁简字转化系统是一种单一的一对一对应关系,没有办法解决繁简字的一对多、多对一的对应关系,所以简化字对繁体字进行转化输出时出现错误或一些其他的有歧义的字。

(三)古籍数字化缺乏一定的引导

在古籍数字化迅速发展的同时,是缺乏一定的引导的,并且在数据内容、数据质量等方面也存在不足:
1.缺少复合型人才。目前看来,从事这种古籍整理工作的人才不多,尤其是不仅仅可以熟练的应用信息技术又具备很强的古籍整理知识的人才。
2.缺少统筹规划。在我国国内是缺乏一个统一的协调和指导,缺乏一个统一的机构,各个开发单位就可能做一些重复建设,这就浪费了很多的时间。
3.急需统一标准。在目前看来,不同的单位在设计数据库时是采取的不同的标准,所以在进行数据交换时不能进行,这就不可能实现资源共享。
4.质量不一样。虽然古籍数字化成果算是比较多的,但是质量却好优参半,只有几个比较大的出版社有质量保障,还收有许多的中小公司的产品没有质量保障。古籍是中国的,也是世界的。古籍数字化任重道远,“千里之行,始于足下”。希望古籍与数字化两者完美的结合才可以更好的传承中华文明。使中华文明走向创新之路,也使中华文明更好的走向世界,

四、关于古籍数字化工程的相关建议

(一)大量选择善本古籍,进行版本信息充分完全的数字化转化

在数字化转化这一过程中,要严格保证所有电子版与古籍的原本之间能做到一一对应。这个技术目前已经成熟,所以,只是个工作量的问题。因为善本古籍数量还是很庞大,所以,最好是全国各古籍单位能协作,尽量不要搞重复建设。我们现在已经重复的有了至少五种不同质量不同版本的《四库全书》,二十多种《全唐诗》,真是浪费啊。

(二)不同版本的古籍要进行严格汇校

在完成单种版本的数字化之后,按书,将不同版本进行汇校,对每种古籍都尽可能形成一个最全面的“汇校本”,将能找到的版本全部拉在一起汇校,这个从技术上讲也是成熟的。也是个工作量的问题。还有就是各单位合作的问题,不要再把那些自以为希奇的版本藏起来不给人看,信息共享在信息社会还是很重要的。

(三)在汇校本的基础上形成一个集注集解本

这个集注集解本可以利用嵌入式技术,形成文字内容的内结构关联,简单一点的可以像现在的网页上用超链接“挖坑”,这个倒不是技术问题,关键是如何能形成有效的链接结构,即内在结构,虽然注解本身与正文的关系是一定的,但是注解与直接之间除了简单的时间先后,还要考虑不同的学派,这个学派特征又有自己的时间顺序,所以这个地方才是关键。这也是体现学术价值的地方。对于汇校本、集注集解本的全文检索数据库增加一个开放的功能,然后把这个数据库放到网络环境中,允许人们自由地进行评论,并定期整理这些评论。这样是把数据库与网络结合起来,让数据库“活”起来,这样的意义在于,让人们能够按网络的结构重新整理前人的学术成果。
五、结束语
中文古籍数字化在我国出现的不早,大概只有二三十年的时间。他的资源非常丰富,而且古籍数字化为我国古籍的籍整理方式的带来了一次全新的变革。在传统的古籍整理方式上,它将是一个值得拓展的全新领域,也为古籍继续延续发挥了巨大的效用。笔者相信,古籍数字化是古籍整理发展的未来必然的趋势,只有我们顺应潮流,才可以更好的利用这些丰富的古籍资源。
参考文献:
王世伟.图书馆古籍整理工作[M].北京:科学出版社,2008,6
杨牧之.新中国古籍整理出版工作的回顾与展望[J].图书馆理论与实践,2010,9
[3]张雪梅.古籍数字化与文献信息资源共享[J].天津工业大学学报,源于:职称论文www.808so.com
2007,3
[4]范子烨.古籍电子化与中国古代文史研究——以文渊阁《四库全书》电子版原文及全文检索版为中心[J].东南大学学报(哲学社会科学版),2004,3,2

点赞:31716 浏览:145579