陈涛等 | 《古籍文献通用知识模型研究与设计》
近日,我院陈涛副教授课题组在《信息资源管理学报》发表论文《古籍文献通用知识模型研究与设计》,并被《人大复印报刊资料 • 图书馆学情报学》2025年第4期全文转载。该论文构建了古籍文献通用知识组织模型,并使用《永乐大典》资源进行模型验证,为古籍知识的关联呈现、传播共享和智慧应用提供了可选路径。
《信息资源管理学报》为CSSCI来源期刊;中国人文社会科学核心期刊。期刊立足学科,服务行业,促进信息资源管理理论研究和学科建设。
【摘要】
我国拥有卷帙浩繁的古籍文献,传统的古籍组织与管理方式实现了古籍资源从“藏”到“用”的转变,但“裸资源”越来越难满足数智时代的古籍利用需要。文章考察分析了古籍文献知识组织可复用本体模型,并梳理了古籍文献知识建模视角与思路,从形式特征和内容特征两个维度提出了古籍文献通用知识模型五层框架结构。为验证模型可用性,文章以《永乐大典》“湖”字册为例,构建关联数据集,探索融合关联数据的古籍文献知识图谱,实现了知识聚合与知识发现。本文立足古籍整体,构建了古籍文献通用知识组织模型,为古籍知识的关联呈现、传播共享和智慧应用提供了可选路径。
【关键词】
古籍;本体构建;知识图谱;关联数据;永乐大典
古籍文献通用知识模型框架
文章从形式特征和内容特征两个维度出发,提出了古籍文献通用知识模型构建框架,如图1所示。鉴于古籍分类的重要性,将其单独提出形成分类整理层。该层位于顶层,参考古籍“四部分类法”定义古籍文献类目,划定知识组织模型所囊括的对象,使所构建的本体适配于不同类型古籍文献,提升通用性,并通过分类产生一定语义。文献书目层位于第二层,用于描述古籍文献书目信息,为保证知识揭示的全面性和专门性,该层复用BIBFRAME模型中的“实体-关系”结构分层建模。文献书目层与分类整理层通过定义“古籍分类”属性联系,后者可作为其取值类。组织结构层为第三层,复用Schema.org词表描述古籍文献中文本、图像等内容的逻辑和物理组织结构,图像资源最小单位为单张图像,文本内容则视古籍内部卷册、篇章、条文划分而定,细化对古籍层次结构的描述。BIBFRAME模型中的“实例”可视单份古籍,定义组织结构层类与属性,关联文献书目层与组织结构层。内容实体层用于描述古籍文本中的专名实体,借鉴CIDOCCRM模型以事件为中心的思想描述“动态”的文本内容,抽象出较为固定的组织结构。将组织结构层中的文本拆分为不同的事件,定义“事件”属性,关联组织结构层与内容实体层。知识关联层用于管理与古籍知识实体关联的外部知识,增加知识可见度,通过SPARQL联邦查询实现,旨在提高数据可维护性,由连接知识实体和外部知识的专门属性构成。

图1 古籍文献通用知识模型构建框架
(一)分类整理层语义模型构建
分类整理层主要借鉴《汉文古籍分类表》,为降低本体复杂度和提升可扩展性,本层仅采纳了其中前两层结构,不包括二级类下的各属,本体词表如表1所示。本层自定义了顶层类ab:Category,代表“四部分类法”,其下逐层定义子类。顶层类下分别定义了经部(ab:Classics)、史部(ab:History)、子部(ab:Philosophy)、集部(ab:Literature)和类丛部(ab:Collection)五个一级子类,各部子类如表所示。由于目前尚无描述古籍分类信息的专门模型,各部及其子类主要参考古籍领域术语自定义。
表1 分类整理层本体词表

(二)文献书目层语义模型构建
文献书目层采用BIBFRAME模型,由主题、作品、实例、单件4个核心类构成,用于分层描述古籍书目信息,根据古籍文献书目特征,参考古籍平台检索字段、著录规则、元数据方案和相关本体等抽取基本类与属性,如上海图书馆古籍联合目录和循证平台本体词表、中国历代人物传记资料库关联数据系统本体等,并复用BIBFRAME2.3词表中的类与属性表示。文献书目层本体模型核心类、基本类及类间关系如表2所示。主题类(bf:Hub)、作品类(bf:Work)、实例类(bf:In-stance)和单件类(bf:Item)为本层核心类,主题与作品通过bf:hasExpression属性连接,作品与实例通过bf:hasInstance/bf:instanceOf属性连接,实例与单件通过bf:hasItem/bf:itemOf属性连接。
表2 文献书目层本体词表

(三)组织结构层语义模型构建
古籍组织结构是因内容特征和表达需要而选择的特定逻辑组织方式,通过目录、章、节、类目等可见形式体现。《永乐大典》是我国古代最大的类书,引用书目众多,内容与结构形式丰富,编排方式多样,具备一定语义基础,便于抽取核心概念并建立概念结构,对其他古籍文献具有一定参考价值。因此,本层以《永乐大典》为例构建语义知识模型,保证模型的通用性。《永乐大典》卷册根据《洪武正韵》编排,其中,一册通常包括多卷,一卷包含一条或多条事目内容,册次为在特定韵中的排序,卷次为在整部大典的排序,每一卷册均为特定事目相关的内容,以事目中实意字作为韵字,作为编排检索依据,由此形成韵目、韵字、册、卷、事目构成的多层组织结构。以“湖”字册卷2275至卷2278为例,所描述事目为“湖州府”,“湖”字属于为平声第六部“模”韵,因此排列于“六模”中。封面注明题名、册内卷次、韵目、册次。每一韵字开头册,先释音义与出处,列举不同字体字形与异体字。正文开头注明事目标题,事目划分二级或三级事目,底层事目下逐条编排引文,正文内容由插图与文本构成,文本包括正文与注释,注释为补充说明,末页则注明责任者,《永乐大典》整体结构如图2所示。

图2 《永乐大典》组织结构图
《永乐大典》整体结构为韵目、韵字、单册、单卷、事目和引文。韵目与韵字是排列方式,事目可视为引文的主题,核心的实体结构为单册、单卷和引文,引文构成单卷,单卷构成单册。引文包含引书名与具体内容,是最小语义单元。根据“单册-单卷-引文”结构抽象类和属性,单册《永乐大典》与引书均可视为古籍实例,使用“等同类”属性(owl:equivalentClass)与实例类(bf:In-stance)关联,保证不同层次本体的独立性和关联性。本层主要复用Schema.org词表构建本体,组织结构层本体词表如表3所示。韵目可视为由多个韵字构成的分类编码集,复用分类集合类(schema:Collection)和元素类(schema:ArchiveComponent)表示韵目与韵字,使用“基于”(schema:isBasedOn)属性描述二者关系,使用“名称”(schema:name)属性描述具体韵字名称。韵字音义侧重内涵描述,字形侧重外在感知,分别复用“描述”(schema:description)与“外观”(schema:ac-cessMode)表示。册卷间的关系可视为书章间的关系,复用书籍类(schema:Book)和章节类(schema:Chapter)表示,复用“组成部分”(schema:isPartOf)属性描述卷册关系。此外,单册顺序为韵内册次,单卷顺序为卷次,复用“标识符”(schema:identifier)属性表示。每一单册都有所属韵字,使用“关键字”(schema:keywords)属性连接单册类与韵字类。每一单卷中按事目组织,不同层级的事目均可抽象为分类单元,复用分类单元类(schema:Tax-on)表示事目,通过下级分类(schema:childT-axon)和上级分类(schema:parentTaxon)属性区分不同层次事目间关系。引书同样复用书籍类表示,通过“引用”(schema:citation)属性与单卷类关联。复用引用内容类(schema:Quotation)表示引文,使用属性“schema:isPar-tOf”与引书类关联,顺序使用属性“schema:identifier”表示。注释可抽象为陈述性内容,复用陈述类(schema:Statement),与引文类的关系为“组成部分”(schema:isPartOf),复用“schema:description”属性表示注释内容。
表3 《永乐大典》组织结构层本体词表

(四)内容实体层语义模型构建
本层复用CIDOCCRM模型,并借鉴其以事件为中心的建模思想构建本体,从引文中拆分出相关事件或细分条目,将事件或条目作为上层结构,从中抽取出各种知识实体,定义事件/条目与其他实体间的语义关系,实现引文的动态描述,使对《永乐大典》的组织深入知识实体维度。本层词表如表4所示。《永乐大典》中,引文可视为可识别的结构性文本信息对象,可复用信息对象类(cidoc-crm:E73_Information_Object)表示,使用等同类属性与组织结构层中的引文类(schema:Quatation)关联。在文献书目层中,人、地、时、事等常见实体已定义用于描述古籍文献形式特征,无法与事件实体关联。为区分文献书目层与内容实体层中的实体,本层分别复用了CIDDOCCRM模型中的事件类(cidoc-crm:E5_Event),时间跨度类(cidoc-crm:E52_Time_Span),地点类(cidoc-crm:E53_Place)和人物类(cidoc-crm:E21_Person)表示上述四类实体。古籍中还包括朝代信息和细分条目信息,朝代含有历史、时间和空间意义,复用名称类(cidoc-crm:E41_Appella-tion)表示。CIDOCCRM模型中,可用于描述细分类目的类有多个,如物理对象类(E19)、概念对象类(E28)等,但都缺乏完整的属性与其他实体相关联,事件类涵盖了“文化、社会及物理对象的状态变化”,能够囊括关于细分类目的描述性内容,因此仍使用事件类表示细分事目,复用事件类已有属性,降低本体的复杂度。此外,古籍采用历史纪年方式记录时间,所载地点往往经过数次更迭,本层自定义了公元纪年类(ab:Current-Temporal)、历史纪年类(ab:HistoricalTempo-ral),历史地点类(ab:HistoricalPlace)和现今地点类(ab:CurrentPlace),分别作为时间跨度类的子类和地点类的子类,以便精准描述时间和地点信息,并与其他知识库关联。属性层面,引文由事件构成,复用“出现于”(cidoc-crm:P12_was_present_at)属性描述二者间的语义关系。同时,以事件类为中心,复用了“标识”(cidoc-crm:P1_is_identified_by),“发生地”(cidoc-crm:p7_took_place_at),“时间跨度”(cidoc-crm:P4_time-span),“参与者”(cidoc-crm:P11_had_paticipant)四条属性,描述事件相关的朝代信息、事件信息、人物信息和地点信息。
表4 古籍文献内容注释层本体词表

(五)知识关联层语义模型构建
本层使用owl:sameAs属性聚合《永乐大典》中的知识实体与外部知识库中资源,形成sameAs网络,并储存到专门三元组图中,并使用rdfs:seeAlso属性与相关百科知识库关联,提供具有相关性和参考性的资源。在本体服务中心中发布所构建古籍文献通用知识模型,各层之间既可以单独使用,也可以整体应用,可以较好实现各层独立性和模型整体性的统一,实现知识模型校验、共享、检索、浏览、可视化和复用,本体结构如图3所示。

图3 古籍文献通用知识模型结构图
古籍文献关联数据与知识图谱构建
古籍文献通用知识模型的价值在于与其他语义网的联合应用。本文以《永乐大典》“湖州府”事目相关卷册为例,构建关联数据和知识图谱,验证所构建古籍文献通用知识模型的科学性和可行性。
(一)《永乐大典》数据收集与预处理
“湖州府”相关卷册由“建制沿革”“分野”等多个二级事目构成,涵盖叙述性内容与罗列性内容。文本中除韵目、正文等常规内容外,还包含注释和描述“湖州府”地理特征的图像,较全面地体现了《永乐大典》的逻辑结构和内容层次。通过“识典古籍”平台获取卷2275至卷2278的数据,共计86叶,约68000字。对照《永乐大典》原有组织结构,核对文本、句读等内容,通过引书标注等方式细化文本数据粒度,以便实体抽取,提升内容组织的深度。
按照本文构建的古籍文献通用知识模型的五层结构进行数据收集。第一,文献书目数据。目前暂无相关数据库提供相对完整的大典书目数据,因此本文主要结合张忱石等学者整理的现存《永乐大典》现存卷目表、《永乐大典》高清影像数据库等平台,收集整理书目数据,根据文献书目层结构分别整理到主题层、作品层、实例层和单件层。第二,分类整理数据。根据分类整理层所构建“四部分类法”层级结构,《永乐大典》属于子部的类书类,此部分内容较少,分类整理层通过分类属性(ab:category)与文献书目层关联,因此直接整合到后者之中。第三,组织结构数据。组织结构数据存在于《永乐大典》内部,使用“吾与点”古籍智能平台抽取实体并进行人工审阅,获取《永乐大典》文本内容知识实体数据,包括韵目、韵字、卷次、册次、各级事目、引书、引文、注释等内容,并对文本数据进行拆分。第四,内容实体数据。内容实体主要为《永乐大典》正文中所含的事件或所列对象相关的人物、时间、地点、朝代等信息,也采用人工协同方法抽取。第五,关联知识数据。关联知识主体为外部知识库中的相同实体,以及少量百科知识库中的相关资源,通过SPARQL查询从上海图书馆开放数据平台、CBDB平台和DBpedia中获取关联资源。古籍文献通用知识模型分为五层,每个层次都可以单独组织,各层数据之间由对象属性的关系连接,最终在知识图谱中呈现。四卷《永乐大典》文本数据,所有抽出和整理的数据共1600余条,形成25张数据表。
(二)《永乐大典》RDF数据转化
使用Python第三方库EXCEL2RDF作为转换工具,提升三元组数据转换效率,使用OpenLinkVirtuoso三元组库储存数据。本体中每个类所指代的实体均赋予单独的URI标识,将EXCEL数据转换为RDF三元组,人、地、时朝代等信息均关联到其他数据集,共转换完成三元组10558条,包含实体1912个。《永乐大典》“事件类”RDF数据转换示例,如下所示,格式为RDF/Turtle。

(三)《永乐大典》知识图谱构建
鉴于知识图谱在知识推理、可视化展示等方面的独特优势,本文使用《永乐大典》关联数据在Neo4j图数据库中构建知识图谱。通过图数据库环境部署、URI约束创建、图初始化、数据映射、三元组导入、数据校验与查询等流程,将RDF数据映射到Neo4j图数据库可以解析的属性图结构中,生成知识图谱,如图4所示。该图谱共包括2107个节点及4701条关系,可识别三元组数量与Virtuoso数据库一致,节点标签与RDF数据中的资源类型保持一致,节点间关系和节点属性与本体中的对象属性和数据属性一致。

图4 《永乐大典》(湖字册)知识图谱
(四)《永乐大典》知识图谱实例分析
知识图谱不仅能反映知识元素及其关系,还可以挖掘隐性知识和关系,无须查询和阅读原文本。实现多文本之间的“远读”,提高检索效率。以本体模型为基础,知识图谱直观呈现了复杂的语义关系,无论是采用三元组还是图模型储存数据,都可以在知识图谱中实时查询知识实体间的关联。此处,以《永乐大典》“建制沿革”事目为例,查询与其相关的所有事件,并按照引文顺序和事件顺序排序,Cypher查询语句如下,部分查询结果如表5所示。

表5 《永乐大典》“建制沿革”事件查询结果(局部)

使用上述语句,共查询得到相关事件139条,其中前10条事件均来自卷2275第一条引文,通过单个节点图谱,发现其三级主题分别为“湖州府一”“建制沿革”和“乌程县”。以上事件按时间排序,从公元前222年至公元602年,由此可快速梳理出《永乐大典》中关于湖州府下辖的乌程县的建制沿革,无须查阅涵盖注释的原文本。由于本体模式层的描述粒度已深入到文本层,对于缺乏详细内容目录的《永乐大典》,基于知识图谱的语义查询具备高效、准确的特征。本案例所使用的节点包括实例、引文、事件和时间四类,不同节点间包含“具有引文”“包含事件”“相关时间”三种关系。与传统关系型数据库相比,知识图谱每个节点可以直接连接到其他节点,更快速地执行关联查询或语义查询。
研究总结
文章从知识组织和数字人文视角,探索了古籍语义通用知识模型的构建过程,融合关联数据与知识图谱的古籍多维度知识组织路径。古籍文献中的知识要素可根据知识组织的粒度和蕴藏的深度划分为多个不同层次,不同层次中蕴含着具有相同特性和语义关系的知识。现有《永乐大典》等古籍文献的在线服务平台以观看和浏览功能为主,主要为公众提供图像、文本层面的服务,较少涉及古籍文献知识元层面的组织与复用,本文可为古籍文献的知识化、语义化提供语义层面的思路,与现有平台优势互补,同时为编制古籍词表与知识本体的工作提供参考,推动中华优秀文化资源的智慧化传播、创造性转化与创新性发展。
古籍文献领域内知识的传播、关联、共享和重用都需要一个通用的知识组织模型。本文立足古籍文献整体,探索从形式和内容两个视角,对古籍知识内容进行全方位、多层次、多角度组织,构建通用的古籍文献通用知识模型,在互联网中开放,作为古籍知识组织的参考模型。通过构建关联数据集和知识图谱,本文探索了面向所有古籍资源的语义化知识组织方案,探索了古籍资源从数据化到数字化,再到数智化的路径,提供了《永乐大典》知识库构建的雏形。然而,知识模型构建是一个反复迭代的过程,本文以单一古籍为例,可能无法满足其他领域的知识描述需求。未来将采用人机协同的方式,提升知识抽取效率,大规模添加实例数据,结合国际图像互操作框架,探索古籍文本图像跨模态组织,以知识库作为中间件,探索跨模态的知识元解析、语义分析、关联挖掘、可视化呈现、精准关联。
本文原载于《信息资源管理学报》2025年第1期(2025年1月),文章转载已获作者同意。
【作者简介】
陈涛,成人色情小说 副教授,硕士生导师,研究方向为数字人文、人工智能、智慧情报;

赵晓飞,成人色情小说 硕士研究生;
杨鑫,成人色情小说 优秀毕业生,中国人民大学信息资源管理学院博士在读;
林立信,成人色情小说 硕士研究生。