档案大数据来袭

据统计,我国“十一五”末馆藏档案已达到39264万卷(件)。随着社会活动快速加强、网络信息化日益普遍,移动互联、社交网络、电子商务大大拓展了网络的疆界和应用领域,悄无声息,大数据时代已经来临。我国的档案数据广泛存在于政府、企业的各行各业。我们正走向我国的档案大数据时代。

档案大数据的产生

过去,档案检索主要依靠手工著录、卡片检索。随着信息技术的进步、数据库技术的发展,计算机辅助档案管理使档案管理变得更为快捷和方便。档案数据主要来源于两个方面:1、各业务部门通过业务系统产生的业务数据转为档案数据;2、档案部门通过人工填写、录入、搜集归类后转为档案数据。

新形势下业务系统产生的档案数据具有及时、广泛、数据量大、内容繁杂的特点。较为智能的业务系统能够随时将业务数据输送至档案部门存档,如办公系统、财务系统,当文件办毕时,数据(文件)可立刻转为档案数据。不同职能的业务部门产生的档案更具有广泛性,如法院卷宗、医院病历、人事档案等,不同的立档部门产生不同的业务档案。我们的业务系统时刻运行,意味着每时每刻都会产生档案数据,因此档案数据量会大得惊人。即便是同一个业务部门产生档案数据,也会由于档案门类、信息元不同,形成的档案数据不同。

档案部门除了采用业务系统收集档案数据以外,还采用人工方式生成档案数据。最常见的是将馆藏的实体档案通过数字化技术转为档案数据,如扫描、拍照等。我国的档案信息化在未来几年将得到快速发展,信息化将呈几何级增长,形成真正意义上的档案大数据。如图:

因此,我们应从档案大数据的源头充分考虑未来的应用范围,把握档案数据“快、广、大、乱”的特点,把来得“快”的档案数据及时处理,把产生“广”的档案数据各个击破,把存量“大”的档案数据化整为零,把内容“乱”的档案数据有序归类。

档案大数据的存储

档案大数据给传统数据仓库架构带来了一系列的冲击和挑战,仅从存储层面来审视,仓储的构建者不得不面对来自两方面的焦虑:一是数据规模急速增长,现有的共享磁盘架构能否适应海量数据的存储;二是数据结构复杂多样,现有的基于结构化数据为主体的存储方案能否兼容无模式的非结构化数据。

面对大数据的挑战,在技术上航星科技将如何解决大数据的问题呢?从现有数据库存储架构来和实践研究看,一个大而全的存储架构似乎不能完美的解决大数据的存储。大部分企业更应该偏向于让不同种类的数据存储在最适合他们的存储系统里,再将不同类型的数据进行融合,最后在融合的数据基础上做商业分析。

首先,必须有足够的空间存储数据。对于大数据,当企业在快速增长数据的背景下要保持数据的一种平衡状态并实现易扩展,应采用分而治之的思想,即构建分布式存储系统,方便增加节点实现稳步处理。

其次,兼有多种结构的存储引擎。大数据的结构复杂多样使数据仓库面临的源数据太过繁杂,此时应改变目前以结构化为主体的单一存储方案,对非结构化数据采用分布式文件系统进行存储,对结构松散无模式的半结构化数据采用面向文档的分布式key/value存储引擎是最适合的解决方案。

最后,航星科技建立连接多种存储引擎的“连接器”。通过这个“连接”来建立分布式存储与分布式文件系统之间的关系。我们存储多元化的数据主要是为了集成分析,而多种结构的孤立存储显然不是集成分析的最佳选择。通过构建连接器,使得非结构化数据在处理成结构化信息后,能快速融通和分布式数据库中的关系型数据,达到对大数据敏捷分析。

档案大数据的应用

传统的档案信息管理一直停留于档案目录管理、分类、归档、存储及简单的统计查询,档案大数据的关键信息需通过一定的技术方法进行提取,并针对提取出的有效信息根据一定的规律进行挖掘。只有满足不同档案用户的信息需求,数据挖掘技术才会发挥巨大作用。在海量的档案信息挖掘中主要采用文本数据挖掘技术,这相当于文字分析,一般指文本处理过程中产生高质量的信息。

文本数据挖掘的基础领域,包括机器学习、数理统计、自然语言处理;在此基础上是文本数据挖掘的基本技术,包括文本信息抽取、文本分类、文本聚类、文本数据压缩、文本数据处理;文本挖掘有两个主要应用领域,信息访问和知识发现,信息访问包括信息检索、信息浏览、信息过滤、信息报告,知识发现包括数据分析、数据预测。如图所示:

总之,我们可以把对文本数据的分类、融合、压缩、摘要以及从文本中抽取发现知识与信息都看作是文本数据挖掘。通过这些技术使得我们在搜索档案时从大数据范围变成从小范围,从而提高其效率和准确度。

在档案信息化领域,知识管理的发展主要包括认知、信息积累、知识挖掘、知识运用、规范化发展五个步骤。通常结合信息检索、分析及挖掘技术,将信息进行适当的分类及抽取或形成一组问答序列,并将这些信息进行提取,形成解决某一问题域的数据集市,挖掘出一定的专门知识,作为决策的依据。

档案知识的输出和评价还需要高效快速的辅助智能检索技术。

(1)基于语义检索。提供计算机可以理解人类语言后的一种搜索模式。

(2)基于音视频内容检索。可以直接对音视频内容进行检索,自动识别关键帧,能够区分定位出一个视频中的不同的两段内容,减轻人工打点的工作量,提高视频处理的能力。

(3)档案智能化辅助分类。可从历史分类中智能提取档案分类,提高用户整编效率,实现文献的自动分类;系统可自主根据已有档案分类进行学习,促进以后辅助分类的准确度;支持多维度的动态分类;支持用户自定义分类展示。

因此,档案大数据系统平台总体架构应按照实际内容应用的流程实现,即从数据的采集、智能处理、数据挖掘与智能搜索应用平台三个层次实现。通过多类型数据采集平台进行数据采集,在智能数据处理平台上对这些非结构化信息、多媒体信息和用户信息进行分析,最后在应用平台上提供数据挖掘结果的搜索平台和多媒体自动编研平台。

管理档案大数据较传统的档案数据,需要去改变管理流程与文化,很多企业不愿意改变传统的方式。形势已经来临,竞争对手可能已捷足先登,保守必将错失机会。

作者高茂科,摘自CSDN

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2014-04-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏架构说

Go语言,Docker和新技术

上个月,作为 Go 语言的三位创始人之一,Unix 老牌黑客罗勃·派克(Rob Pike)在新文章“Go: Ten years and climbing”中,回...

4129
来自专栏我的小碗汤

go语言、docker和新技术

Go 语言的三位创始人之一,Unix 老牌黑客罗勃·派克(Rob Pike)在文章“Go: Ten years and climbing”中,回顾了一下 Go ...

1472
来自专栏DT数据侠

如何创造出优秀的数据可视化作品?这些“实战经验”请收好

早就有人称赞过DT君的数据可视化是业界清流,也经常有想要入门的同学前来求教。那么,作为一名专业的可视化设计师,如何能够结合具体业务做出炫酷的可视化作品呢?

1370
来自专栏大魏分享(微信公众号:david-share)

因为有你,所以成功---红帽云套件合作伙伴招募回顾

前言:昨天下午(11月29日),红帽举办了云套件合作伙伴(BP)招募会。会上,红帽几位架构分享了云套件解决方案以及销售方法。合作伙伴们也踊跃提出了疑问和见解,大...

3756
来自专栏Jackson0714

【专注力管理:让你的努力更高效】总结

2389
来自专栏ATYUN订阅号

Airbus和IBM计划让机器人CIMON加入国际空间站执行任务

Airbus和IBM正在计划让CIMON(Crew Interactive MObile CompanioN)加入国际空间站,这是一款采用IBM Watson ...

1344
来自专栏铭毅天下

软技能,程序员编程之外的升值之道!

程序员,除了编码之外的软技能有哪些呢?《软技能——代码之外的生存指南》33岁实现职业自由、财富自由的作者给出了解读。

1252
来自专栏编舟记

系统之美

世界是普遍联系、永恒发展的,这是我很欣赏的一名大学马原老师奉为圭臬的话,也是给我很大触动的金玉良言。世界是一个大系统,其中有纷繁复杂的事物,用独特的行为方式互相...

712
来自专栏数据的力量

如何快速入门一个陌生知识领域

1907
来自专栏求索之路

我的技术成长之路

上面就是我目前的状态了,如果大家觉得能力比我弱那么一丢丢的话,那么还是可以继续把文章看下去的,应该会对你有所帮助。

1202

扫码关注云+社区

领取腾讯云代金券