刘 利
摘 要:本研究通过文献法对我国古籍数字化的发展历程及其各个阶段的特征进行梳理,分析在新技术驱动下三种主要智能技术对古籍数字化的支持作用及其应用成效。分析显示,古籍数字化在跨学科整合、虚拟与增强现实、开放获取以及可视化交互等方面呈现了良好发展前景。一方面,应在政策出台、法规制定、技术创新等层面促进古籍数字化的发展;另一方面,应平衡好古籍原貌保护、人工智能技术与社会公众需求之间的关系。
关键词:技术驱动;古籍数字化;动态趋势
VR全景技术通过模拟人在空间中的视觉观察方式,结合图文、3D、音视频等媒体,达到沉浸式的效果,让用户感觉自己就像身处于一个客户互动的三维空间的环境中。李桑羽/摄
古籍数字化是推动我国优秀传统文化创造性转化和创新性发展的重要战略内容。2022年,中共中央办公厅、国务院办公厅印发《关于推进新时代古籍工作的意见》,为我国古籍数字化提供了指引。古籍数字化是通过现代信息技术手段,对古籍文献进行规模化、系统化扫描、微缩、识别、录入、存储,使其转化为电子数据形式,并通过网络通信、计算机或移动终端展现与传播的系统性工程。古籍数字化不仅从根本上避免了实地翻阅对古籍造成的各种潜在损害,而且彻底打破了古籍阅览的时空限制,从技术上提升了古籍保护程度和古籍使用效率。当前,我国古籍数字化工作在多个层面同步展开,形成古籍数字化巨制频出的局面,这不断激发着古代典籍旺盛的生命力。
一、我国古籍数字化的发展历程
古籍数字化并不是新近出现的现象,而是经历了从“古籍+数据库”技术阶段、“古籍+光盘”技术阶段、“古籍+OCR(光学字符识别)”技术阶段,向“古籍+人工智能”阶段演进的过程。
第一阶段:“古籍+数据库”技术阶段的起点可追溯至20世纪80年代初期,随着数据库技术的不断进步,古籍数字化逐渐步入联合目录阶段。这一阶段的特点在于:利用计算机在搜集、整理及检索等方面的优势,通过数据库形式存储古籍资料。此阶段主要以书目数据库为主,它克服了传统人工检索方式对古籍造成损害、耗时耗力等弊端,提升了检索效率。
第二阶段:“古籍+光盘”技术阶段起源于20世纪90年代初,以我国推出“二十四史检索光盘”为标志。在这个期间,随着存储技术的进步,古籍数字化步入光盘存储影像阶段。该阶段的特点在于:以光盘为载体,集成目录查询、内容检索及原始图像存储等功能,扩大了古籍资源的利用范围和使用来源,丰富了古籍的运用方式。
第三阶段:“古籍+OCR(光学字符识别)”技术阶段自20世纪80年代开始,进入21世纪,随着信息技术的不断进步和古籍数字化规模的扩大,古籍全文数字化迎来了快速发展期。这一阶段的特点在于:通过网络连接的古籍数字化数据库,可以实现精准定位已全文录入数据库中的古籍文本位置,从而实现古籍资源的精准检索,进一步拓宽了古籍的使用群体。
第四阶段:“古籍+人工智能”阶段。当前,随着人工智能技术在各领域的广泛应用,古籍数字化也迎来新的发展机遇期。人工智能技术为古籍数字化提供了更高效、更准确的解决方案,古籍数字化正式迈入人工智能阶段。在这一阶段,通过深度学习等算法,人工智能可以对古籍进行自动识别、分类;利用图像处理和计算机视觉技术,检测和修复古籍中的破损和污渍;古籍检索系统和推荐系统也为读者提供了更加便捷、个性化的阅读体验。这些应用不仅彰显了人工智能技术在古籍数字化领域的广泛应用和深远影响,也为人类揭示了未来古籍数字化的发展方向和巨大潜力。
二、智能技术对古籍数字化的支撑及应用效能
数字智能技术在现代古籍出版中发挥着举足轻重的作用,成为古籍数字化出版的关键支柱。借助数字智能技术,能够实现古籍的高清扫描、精确识别、快速录入以及大规模存储,既完整保留了古籍的原貌,又为后续处理提供了便利。当前,应用于古籍数字化的智能技术主要可分为以下三类。
一是光学字符识别(OCR)技术。即“电子设备(如扫描仪或数码相机)对纸质文档上的字符进行扫描,通过检测暗亮模式以确定其形状,进而采用字符识别方法将形状转换为计算机可编辑文本格式的过程”。相较于常规OCR技术,古籍OCR在质量、版式、风格等方面均面临较大挑战。当前主流的OCR技术虽具备较高的识别率,但尚不能直接应用于中文古籍OCR,原因在于高质量、大规模标注数据的缺失,尤其是中文大规模公开数据集的稀缺,也由于西方古籍版式数据集依然占据主导。目前,识别效果较好的OCR技术主要包括书同文公司的“i-慧眼OCR”和古联OCR系统。
二是虚拟现实与增强现实技术。虚拟现实(VR)及增强现实(AR)技术为古籍展示与研究带来了全新途径。借助虚拟现实技术,用户可在虚拟环境中亲身体验古籍的历史背景及其深刻内涵,从而提升沉浸式古籍阅读体验。增强现实技术则将古籍数字化副本与实体展品相结合,提供更为丰富的信息及交互功能。例如,我国国家博物馆与国家图书馆运用VR与AR技术构建虚拟展览及数字化交互平台,使读者能更为直观地认识与鉴赏古籍价值。
三是数据挖掘与自然语言处理技术。借助数据挖掘和自然语言处理手段,能够对大规模古籍文本进行深入分析和研究。通过对古籍文本数据进行语义分析、构建主题模型及关系网络,得以挖掘隐藏其中的知识和信息。这些技术在古籍的内容、作者、时代及流派等方面为古籍研究者提供了有力支持。例如,南京农业大学国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”课题组与中华书局古联公司推出了一系列古籍处理领域的大语言模型:荀子系列大语言模型(XunziALLM),它是一种基于深度学习的自然语言处理技术,利用“荀子”能够完成古籍词法分析、实体识别、关系抽取、文本分类与匹配、文本摘要等工作,提高了古籍的可读性、可检索性、可利用性。
在古籍数字化领域,数字技术不仅提高了古籍的出版效率和质量,还为古籍的多元化应用开辟了新的可能性。例如,全文检索技术使得读者能够高效地寻找到古籍中的特定内容;文本比对技术则协助学者进行古籍版本的校对和真伪鉴别;自动标点功能为古籍的阅读和理解提供了便利。此外,数字技术还促进了古籍出版形式的创新。传统古籍出版主要以纸质书籍为主,而数字技术使得古籍可以进行电子化出版,例如电子书、在线数据库等。这些创新出版形式不仅便于存储和传输,还支持各类阅读设备和阅读方式,满足了现代读者的多样化需求。新技术的进步显著提升了古籍数字化的应用效能。
一方面,古籍数字化在提升古籍保护与传播效能方面发挥了积极作用。借助古籍数字化技术,古籍保护与传播开启了新的篇章。通过数字化手段,降低了对古籍的频繁查阅与接触,进而减少了对其磨损与损坏的可能性。此外,数字化使得古籍内容得以通过互联网得到广泛传播,让更多公众能够接触和认识古籍文化。以敦煌研究院为例,其在保护与传播敦煌莫高窟壁画文化遗产过程中运用了数字化技术。通过高精度数字化扫描和图像处理技术,将壁画内容转化为数字图像,并构建了数字化壁画数据库。此举既降低了人们对莫高窟壁画的直接接触和破坏,又为全球用户提供了在线浏览和学习资源,实现了古籍文化的广泛传播。
另一方面,古籍数字化推动了学术研究与教育之间的互动协作。古籍数字化技术在学术研究和教育领域展现出广阔的应用前景。数字化古籍文献为研究人员提供了便捷的资源获取和检索途径,使他们能高效地开展研究工作并探索新的方向。此外,古籍数字化还为教育领域提供了丰富的教学资源。学生可通过数字化古籍了解历史文化和传统知识,深入了解古代社会的发展与变迁。教育机构则可利用这些数字化资源设计多样化的教学内容,为学生提供富有互动性和个性化的学习体验。此外,古籍数字化技术还有助于促进跨文化交流与合作。通过数字化古籍文献平台,全球各地的研究人员能共享资源和研究成果,加强学术交流与合作,推动古籍研究跨文化学术对话,实现古籍研究全球化。
三、当前古籍数字化的趋势特征
(一)智能与人文跨学科合作促进研究的深入性
古籍数字化出版的核心在于将古籍文本与其他学科领域的技术和方法相结合。这一过程包括:运用高分辨率扫描以及图像处理技术,将古籍的每一页转换为数字形式;采用光学字符识别(OCR)技术,将古籍文本转换为可编辑和可搜索的数字文本;运用自然语言处理技术,对大量古籍文本进行语义分析和主题模型构建,以揭示文本之间的关系和隐藏的知识。这其中涉及自然语言处理、计算机视觉、人工智能和区块链等领域的技术应用。
以“敦煌石窟数字资产管理平台构建与应用示范”项目为例,该项目调研了敦煌石窟数字化工作流程、数字资源与管理、英藏敦煌藏经洞出土文物数量与种类以及数字化现状。在充分了解这些信息的基础上,建立了基于OAIS(Open Archival Information System,开放档案信息系统)的数据管理系统模型,研发了数字敦煌数字资产管理平台。这一平台形成了完整有序、永久保存、永续利用的敦煌石窟数字文化遗产,为助力“一带一路”建设的文化交流提供了丰富的数字文化资源。
(二)虚拟现实与增强现实提供沉浸式体验
借助虚拟现实(VR)与增强现实(AR)技术,得以提供更丰富且沉浸式的古籍阅读与研究体验。通过VR技术,用户仿佛置身于古籍的实体物理环境之中,逐页翻阅、详察细节,并实现读者与古籍的互动。此外,“VR+出版”的融合不仅体现了图书内容的创新,更意味着读者可参与图书编辑、线上线下发行及版权交易的全过程。
AR增强现实技术则将原本受时间、空间限制的实体信息,通过追踪注册技术、虚拟对象生成技术与显示技术等,实现模拟仿真后的叠加。借助穿戴设备,读者可在虚拟信息应用中体验到真实世界。以国内首部重现二十世纪初“古文献四大发现”的VR互动纪录片《古籍寻游记》为例,该片依托PICO的6DoF交互技术及火山引擎视频云的三维重建与视频扫描技术,重现了殷墟甲骨、居延汉简、敦煌遗书及明清档案这“古文献四大发现”。通过VR互动娱乐、“VR视频+直播”等360度全景视觉与临场参与,给用户以视觉穿越、身临其境的现实感,以更沉浸的方式体验古籍所记载的历史。
(三)开放数据和数据共享方便资源获取
借助开放数据及数据共享手段,推动古籍数字化成果的广泛应用与合作研究。构建开放式数字古籍数据库,提供免费或开放式获取的古籍资源,促进学术界、图书馆与研究机构之间的协作。以国家图书馆(国家古籍保护中心)的中华古籍资源库为例,其最大优势在于汇集了全球范围内丰富的古籍资源,所有古籍资源均实现共建共享及免费开放获取。同时,针对获取的古籍资源进行分类细化,并建立多种检索与浏览方式,使读者通过读者门户及时准确地检索到适宜的古籍资料,这就突破了时空限制,实现了古籍资源全文影像阅览。目前,在线发布的资源包括国家图书馆藏善本与普通古籍、甲骨、敦煌文献、碑帖拓片、西夏文献、赵城金藏、地方志、家谱、年画等,以及馆外和海外征集资源,总量约10万部(件)。
(四)数据可视化与交互式展示帮助用户理解
采用数据可视化技术,将古籍数字化数据以图表、图形和交互式界面的形式展示,有助于读者更好地理解与分析古籍信息,挖掘数据间的关联信息和趋势,进而展开更深入的研究和讨论。近年来,随着新技术的发展,数据驱动的第四范式在学术研究中应运而生。可视化作为连接人与数据的桥梁,使得全面把握古籍出版数字化变得触手可及。例如,北京大学智能学院袁晓如课题组和北京大学中文系杨海峥课题组合作的智能与人文跨学科合作探索汉籍流传图谱项目。该项目借助古籍中的序跋、藏书印及出版等信息,运用计算机视觉、图像处理和机器学习等技术,构建书籍传播的数据规范;通过可视化方式实现交互检索与展示,为古籍出版数字化在广泛时空范围内的流传提供全局概览;有效揭示不同年份出版的汉籍在不同收藏机构间的流传模式,使读者能够直观了解古籍内容及其流布的全貌。
四、进一步推动古籍数字化需把握三种平衡关系
(一)以政策设计维护古籍公共性与商业性的平衡
古籍数字化进程涉及版权及访问限制等诸多问题。作为文化遗产的古籍,在数字化过程中实现了知识产权的创设,因此在古籍数字化及其利用的过程中,需要平衡公共利益与商业利益。为确保古籍知识产权得到保护,同时为确保公众能合法获取和使用数字化资源,应在政策、法律及技术层面进行全面考量,构建透明、公平且可持续的版权管理体系,进而推动古籍数字化资源的广泛传播和学术研究的顺利进行。
政府部门应制定相关政策法规,明确文字识别规范、字体转换标准、产品统一规格、产品审校验收、数字化古籍资源版权归属、使用权限及访问规则,确保古籍数字化的合法性与可持续性。同时,通过技术创新、协同合作、以用户需求为导向以及财政政策扶持,克服古籍数字化过程中所面临的困境,推进古籍数字化事业的发展,实现古籍文化资源的有效数字化和智能化运用,助力古籍文化的传承与创新。
(二)以技术创新维护古籍保护与数字化之间的平衡
在古籍数字化过程中,应始终秉持对古籍原貌的尊重与保护,同时在获取高品质数字化副本的同时,确保古籍的实体完整性与历史价值不受损害。为此,需要在光照、扫描和处理等环节审慎行事,以降低对古籍造成损害的潜在风险。如何在古籍原貌保护与古籍数字化之间取得平衡,是一项关键挑战。
应持续创新扫描与图像处理技术。通过引入高分辨率扫描和多光谱扫描等先进技术,提升数字化副本的品质与准确性。同时,运用尖端图像处理算法和技巧,提取并修复破损的文字和图像,增强古籍原貌的可读性与可视化效果。推动有针对性的技术创新,研发专门针对古籍数字化的工具与算法。例如,针对中文古籍文本的“OCR”问题,结合深度学习和计算机视觉技术,研发更为精确的算法。同时,还需探索更高效的扫描和图像处理技术,以提升数字化过程的效率和质量。通过技术创新,降低古籍数字化的成本与风险,助力推进中文古籍数字化进程。
(三)以人工智能维护古籍传统布局与现代阅读习惯的平衡
古籍文本的光学字符识别(OCR)是古籍数字化过程中的关键环节。然而,由于古籍文本的特殊性(包括复杂字体、旧体字和破损文字等),传统OCR技术可能难以对此进行妥善处理。古籍文本的OCR问题触及字形识别、字体变体、排版布局等诸多挑战。因此,在古籍数字化的过程中,需解决古籍传统格式布局与现代阅读习惯之间的矛盾。为应对此挑战,需要研发针对中文古籍特性的OCR算法,结合机器学习与深度学习等技术,提升古籍文本识别的准确性与处理效率。
通过整合人工智能、深度学习及自然语言处理等技术,开发智能化的古籍文本识别与标注工具。这些工具能自动识别古籍文本中的文字、字体变体和排版布局等特征,进而生成精确的元数据和索引。智能化文本识别与标注技术显著提升了数字化资源的可搜索性与可访问性,减轻了人工标注负担,确保古籍数字化标注的科学性与可靠性,缩短古籍数字化的上线周期,提高古籍数字化的生产效率。
参考文献
[1]金满楼.数字化赋能:汲古慧今,古籍新生[EB/OL]. (2023-03-06)[2024-01-18].https://wenyi.gmw.cn/2023-03/06/content_36410604.htm.
[2]李明杰.构建中华古籍层级保护体系的设想——从古籍价值属性创新古籍保护思路[J]. 图书馆杂志, 2009,28 (03): 14-19.
[3]矩视智能.AI视觉在复杂场景下字符识别的全方位应用[EB/OL]. (2022-09-22)[2024-01-18]. https://zhuanlan.zhihu.com/p/567199646.
[4]金凤.“荀子”大语言模型:化繁为简 通读古今[EB/OL]. (2024-01-09)[2024-01-18]. https://baijiahao.baidu.com/s?id=1787601193121168873&wfr=spider&for=pc
[5]房惠玲. 敦煌文化遗产数字化进程稳步推进[EB/OL]. (2023-11-01)[2024-01-18].http://www.gsjb.com/system/2023/11/01/030900894.shtml.
[6]刘晗. 新出版模式诞生:VR古籍出版怎么做?[EB/OL]. (2018-11-28)[2024-01-18]. https://epaper.gmw.cn/zhdsb/html/2018-11/28/nw.D110000zhdsb_20181128_2-06.htm?div=-1.
[7]公益时报. 一场技术与公益的双向奔赴[EB/OL]. (2023-06-13)[2024-01-18].https://cj.sina.com.cn/articles/view/1881124713/701faf69020016o5p.
[8]中国文化产业网.国家图书馆(国家古籍保护中心)“中华古籍资源库”构建中华古籍的数字网络家园[EB/OL].(2023-11-21) [2024-01-18].http://www.cnci.net.cn/content/2023-11/21/content_30600652.htm.
[9]郭宇涵.智能与人文跨学科合作探索汉籍流传图谱[EB/OL]. (2023-07-16)[2024-01-18].http://vis.pku.edu.cn/blog/chinese_classic_circulation/.
(作者单位:北京当代软科学研究所)