聊一聊数字档案管理中的元数据

应小伙伴Mr.冯的强烈要求,今天小编聊一聊自己对元数据的理解。

元数据的概念

元数据一般解释为“关于数据的数据”,它被广泛地应用在数据库,图书馆、文档管理等信息资源管理领域。ISO15489文件管理国际标准将其定义为“描述文件的背景、内容、结构及其整个管理过程的数据。”不知道这个定义各位小伙伴是否容易理解,小编认为元数据其实就像是我们写论文时的摘要,只不过这个摘要并不仅仅是对论文内容的提炼,还包括是谁、在什么时间生成的、版权、期刊名、计算机文件格式等等。

其实元数据并不是个全新的概念,在档案工作中的著录信息就是元数据的重要组成部分,只不过著录是由人工完成,而元数据绝大多数应由机器完成

元数据的作用可以说是全面的,但它在不同专业领域中的作用也不尽相同(例如在企业信息化工作中元数据可用于数据血缘分析),小编以数字档案管理为例,总结归纳以下几点:

1

通过在元数据中设置业务标识、业务处理人员、责任者、时间戳、MD5校验(即分别从来源与技术两个方面)等内容,可以溯回电子文件的原貌与和变化过程,从而确认电子文件真实性与准确性

2

通过在元数据中设置文件内容、结构以及文件之间关联等内容,可以有效地保护电子文件的完整性

3

通过在元数据中设置电子文件形成、迁移后的技术环境等内容,可以在长期保存过程中,为保证可读性提供必要信息

4

元数据中描述性内容如(文件名称、文件编号、主题词等)可为利用者提供全方位、多角度的检索入口

元数据的编码

由于元数据本身也是数据,它仍需要由计算机等机器设备进行处理,需要对元数据中的元素和结构进行标准定义,需要由特定的文件格式进行封装。良好的元数据编码的需要具备以下条件:

形式化的表述:结构化与非结构化

便于管理

能够展现:兼顾机器可读与人工可读

便于交换:互联环境中的语义注册与管理

长期保存:不受技术迁移约束

由于元数据编码涉及的方面比较多(例如编码的字符集、文件格式等等),小编以为小伙伴们如果有兴趣可以更多去了解这方面的内容。今天小编主要来聊一聊元数据的封装格式及语义化的问题。

元数据封装格式

封装元数据的计算机文件格式其实有多种方案,比如可以保存为普通文本(TXT),应用文档(WORD、EXCEL)、数据库(DBF)、标记语言(HTML、XML),其中在档案管理中目前应用最多的就是XML(其实小编更看好JSON)。XML即可扩展标记语言,通过标记数据与定义数据类型,使计算机之间可以处理包含得各种的信息,其良好的可扩展性、跨平台性,使其在网络服务、数据交换、电子商务、内容管理等领域广泛使用。

XML相较于其他格式的优势

数据处理与共享能力:就目前来讲它与应用平台无关,即任何开发环境、操作系统都能对其进行创建、编辑、查询及传输等操作

格式良好:每个标记都有始有终

可验证性:匹配、遵循Schema(或DTD)定义与约束,并让机器理解数据的类型

元数据语义机制

XML允许自定义描述对象的各种词汇,只要是应用其描述的数据,在互操作时就不必考虑诸如平台、操作系统、开发语言等方面的差异,但正式源于这种互操作性,不可避免的会出现不同开发者用相同标记代表不同的数据或是用不同标签代表相同数据,例如:

xml示例:

项目建筑工程图纸

DWG-CC-0005

G01

防腐专业

上面的示例中很明显的有两个“分类号”标签,但它们不是按照一种分类体系产生的,可能一个遵循档案管理专业,另一个遵循工程项目管理专业。这种带有歧义的标签增加了计算机在处理过程的复杂性,降低了效率。为解决互联环境中的此类问题,xml引入了命名空间的概念,并利用Schema定义文件对自定义标签的语义、数据类型、顺序、可重复性等内容进行了约束,如下图:

xml示例:

项目建筑工程图纸

DWG-CC-0005

G01

防腐专业

两个示例前后有了很大的变化,小编简单的解释下其中的变化:

xmlns即xml namespace,它通过URL指向了互联网空间中的一个地址,冒号后面的“archives”即表示凡带有archives的标签均来自这个互联网空间(pms同理),这样就实现了在互联环境中的语义注册,消除了产生歧义的可能性

xsi即xml schema,代表此文档的约束是遵循Xml Schema标准的,冒号后面的“schemaLocation”指向了约束的定义文件,其格式为xsd,互联环境中的计算机设备可以通过联网下载该文件来校验语义注册后各个标签的有效性,并可以对数据进行必要的质量控制

正是这两者的结合使得XML对于解决异构环境中数据交换,降低不同系统间集成接口开发难度、建立语义化的网络环境以及元数据长期保存具有十分重要的意义。

目前市面上的档案信息系统后端多采用关系型数据库开发,因此档案元数据更多的被存储于数据库文件(.dbf)内,也请小伙伴对比分析一下XML,思考两者的优缺点。

元数据的准确性

刚才我们已经提到了元数据本身也是数据,同样会因人为的误操作、木马病毒、恶意攻击等产生变化。因此为了保证数字档案长期保存过程中的真实、准确、完整,仍有必要对元数据的准确性进行评估。在这方面小编认为对负责产生、管理元数据的计算机设备授予机器证书(即CA),利用xml数字签名(下附图),或是在自定义的元数据标准中利用非对称加密技术,设定具体的功能标签来对整个元数据文件进行校验不失为一种良好的实践,对于数字签名技术及非对称加密的原理小编也将在后面的交流中分享。

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20180530G0PNOD00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券