数字化加工标引系统

该系统主要是完成两个工作:即数字化加工和元数据标引。其中数字化加工主要是对各类图书的扫描和电子化加工工作,以及对各种格式电子资源的转换工作,统一转换成XML格式文档。元数据标引基于XML元数据标准实现图书等各资源的碎片化加工标引。将图书中的所有元数据对应到相关的XML元数据节点上,同时对章节内容进行碎片化处理。系统通过版面分析、智能匹配,并辅以人工进行自动化、半自动化加工标引。

数字化加工软件是由一系列的加工工具软件组成,主要是对出版社的历史存量出版资源进行数字化加工、转换、二次编辑、碎片化标引以及知识点抽取等工作。是数字出版平台中基础性工作环节,对内容资源进行数字化、标准化、结构化、碎片化、知识元化。


网络资源采集系统


主要是从互联网上定向结构化采集网络公开资源,包括网页、图片、文档等资源,经过智能数据处理(分类、聚类、挖掘)、存储、发布,并与出版社的资源进行整合出版。它能够按照用户设定的站点和抓取策略定向采集不同格式的网络数据,并按用户自定义的分类体系进行智能分类和结构化归档,并与出版社的资源进行关联整合,形成有效的互补。

 

功能特点:

定向结构化采集:根据采集策略定时对设定网站的发布数据增量抓取,并对信息进行过滤、信息去噪和结构化内容提取;

自动分类:采用自然语言处理技术对采集到的信息进行智能分类和挖掘;

自动聚类:通过对采集内容的挖掘分析对互联网信息进行自动聚类,从而发现热点信息。

 

电子文件转换工具

 

电子文件统一格式转换,支持WORD、PDF、TXT、HTML、epub 及方正排版文件等多种格式文件的无损转换,实现出版社、作者使用的主流文档格式的规范化和标准化;支持自动转换和批量转换;支持文档DRM 加密;支持各种字符集,提供补字功能。

完整性检查:对排版文件的完整性进行检查,并输出日志

文件拆分:按一定的规则将电子文件拆分成多个文件

文件合并:将多个电子文件批量合并成一个电子文件

格式转换:单个或者批量对各种格式的文件进行转换


元数据标引- 结构化标引工具


元数据标引:通过人机交互的方式从版本文件中直接拉框选择元数据内容,完成对各个元数据项的标引;

章节拆分:按图书、文档等的目录层次拆分具体的章节内容,按目录层次进行管理,同时拆分各章节下面的段落、图片、表格、公式等内容;

元数据智能匹配:根据图书和文档的版本特点,在版面识别的基础上根据模板自动从电子文档中标引和匹配相关元数据,提高标引的效率和自动化程度;

目录识别:通过版面分析,自动定位目录页并拆分目录条目,然后分析出目录标题、页码、层级等信息,然后再以人机交互的方式呈现给用户进行确认;

XML元数据校对:对于标引完成的XML 数据通过可视化的XML 编辑器进行浏览和校对。


元数据标引- 内容碎片化标引工具


传统的数据库存在很大弊端,用户获得的信息多以文章或是整本图书为主,这样往往费时费力。出版物内容的结构化,就是为了解决上述弊端,使信息加工向知识层面发展,为用户提供更优质的知识服务。标准化碎片内容支持资源重组利用,打造多元化出版。网络化知识组织能够揭示知识发展。知识元是知识的基本单元,是从文献层面深入到文献中知识点、概念、事实等内容的最小的独立的知识单元。利用计算机人工智能技术,将文献内容碎片化,自动抽取符合出版要求的知识元,自动标引知识元的知识属性,是构建知识元库、提供出版素材、生成电子书、重组出版等工作的重要基础。

内容碎片化(知识元抽取)工具分为两个部分:知识元识别和知识元分类。知识元识别是指将文献中的知识元自动挖掘出来,知识元分类是指将挖掘出来的知识元自动归入知识元库的框架之内。

111.png