OCR扫描识别技术在档案数字化中的应用

1、OCR扫描识别技术与档案数字化的关系

从当前流行的档案数字化技术层面分析,档案的存储技术、载体性质、计算机运行和检索速度都在发生着日新月异的变化,但档案的检索技术从本质上还是没有改变,与传统手工目录检索一样依赖于档案案卷和卷内目录。随着OCR扫描识别技术的不断完善,OCR识别软件的识别正确率趋向完美以及办公自动化软件的推广,档案检索技术得以突破目录检索的瓶颈,可以实现全文任何字符的检索。这是自计算机数据库技术、网络技术以及存储技术运用于档案管理后又一个里程碑式的发展,使档案信息检索技术实现了跨越式的发展,从根本上解决了档案用户面对浩瀚档案目录无所适从、束手无策的局面。从OCR扫描识别技术的发明到实际应用一直没有脱离计算机数据库技术和文字输入背景,也就是OCR扫描识别技术的产生是为了减轻批量文字输入、打印工作量、提高工作效率,而档案信息数字化的关键技术和工作也是海量文字的输入和检索,所以可以断定OCR扫描识别技术的产生和发展是档案现代化管理或类似档案管理行业在发展过程中,存在批量文字输入计算机数据库时,代替人工单字或词组输入的最适合的方法之一。从技术层面讲两者的关系是相互依赖、相互发展、相互促进。

2、OCR扫描识别技术在档案数字化中的使用方法

OCR扫描识别技术在档案数字化中运用,主要过程是把纸质载体档案的信息内容利用高速扫描仪转换成计算机能识别的图像文件,如JPG、TIF或合成多页的PDF文件,再利用OCR软件的字符识别功能把不能编辑的图像文件和PDF文件中每个字符与标准的汉字数据库中字符对比,截取相同形状的字符并保存在文本编辑软件中,保持能编辑的状态,并可以进行自动标引或运用各类数据库软件的搜索引擎针对字符搜索,以达到档案信息的全文检索。

在实际档案全文数字化过程中一般先把一份文件扫描成多页JPG、TIF或PDF文件,再运用OCR软件识别并判断识别效果,并进行必要的调整和修复就可以到达全文数字化的要求。

在扫描生成页面后,OCR扫描识别技术针对印刷体的页面文件一般识别率可达99%以上,在自动纠错、人工校对后,基本符合档案数字化的要求。从扫描和识别的速度分析,一般中档扫描仪每分钟扫描在40-60页面左右,配合主流OCR识别软件以及处理、分析、校对每页档案全文数字化用时在1分钟以内,装订50个页面的案卷数字化时间在30分钟左右。与人工单字符输入法相比,工作效率提高近十倍,工作强度成倍减少。运用OCR扫描识别技术进行档案全文数字化,工作人员可以长时间连续工作,而纯人工输入连续工作的后果是差错率的居高不下,从而影响档案信息全文的检索和使用。

3、OCR扫描识别技术在档案全文信息输入中作用

OCR扫描识别技术在档案全文检索技术中的运用主要在于实现档案全文数据库的输入工作。面对浩瀚如海的馆藏档案案卷以及每日俱增的新归档案卷,依赖单个字符的输入法和数量相对较少的档案工作人员是无法完成如此巨大的全文输入工作量。在档案管理工作中馆藏量和增量档案一般很难缩小和控制,工作人员数量很难大幅度增加,所以唯有改变数据的输入方式,提高输入效率。

OCR扫描识别技术正是弥补了单字符输入速度慢的不足,OCR扫描识别识别率的大幅提高更是填补单字符输入差错率高的缺陷。因此从当前档案全文数字的工作量以及计算机输入和各种文字识别技术的功效来判定,OCR扫描识别技术是比较适应档案全文数字化的一种技术,是实现档案全文数字化的技术基础和实现途径之一。

转载来源:春枫林

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20180919B080QE00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券