OCR技术让人工智能应用拥有双“慧眼”

把手机摄像头对准菜单上的法语菜名,屏幕上实时显示出翻译好的中文菜名;批量扫描书籍,将全世界图书馆的藏书转化为电子书;街景车游走于大街小巷,拍摄街景的同时也从图像中自动提取文字标识,让地图信息更丰富准确;拍下快递单就能自动填充单号;拍下名片信息就能自动归类,将名片信息自动保存到通讯录相应的信息中;拍下题目就能得到答案,在家轻松获得作业辅导……这些场景的背后,是一项共同的关键技术——光学字符识别(Optical Character Recognition,OCR)。

什么是OCR?

OCR是指光学设备(扫描仪、数码相机等)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,其本质就是利用光学设备去捕获图像并识别文字,将人眼的能力延伸到机器上。

OCR在物流、医疗、金融、保险、传统制造业等领域都有着广泛的应用。如此多的领域朝着智能化和物流数字化方向发展,都要求具有高效稳健的OCR技术,通过机器自动识别图片文字的智能化应用前景十分可观。

OCR的成熟与发展

早在20世纪50年代,IBM就开始利用OCR技术实现各类文档的数字化。但早期的OCR设备庞大而复杂,只能处理干净背景下的某种特定的印刷字体。

20世纪80年代,平板扫描仪的诞生让OCR进入商用阶段,设备更为轻便灵巧,可以处理的字体数量也增多,但对文字的背景要求仍然很高,需要很好的成像质量才能保证效果。

到了20世纪90年代,平板扫描仪对印刷体文本的识别率就已经达到99%以上,可谓OCR应用迎来的第一个高潮。当时最著名的事件是谷歌数字图书馆,谷歌还申请了图书扫描专利,实现了批量化的高速扫描。在此期间,手写字体的识别也在并行发展,被广泛用于邮件分拣、支票分类、手写表格数字化等领域。

2004年,拥有300万像素摄像头的智能手机诞生,OCR的发展又有了新的追求:越来越多的人随手拿起手机拍摄所看到的事物和场景,因此自然场景中的文字识别成为全新的课题。

自然场景下的文字识别

通常,OCR识别的步骤可以分为两步:首先是文本检测(Text detection),将文字从图片中提取出来;然后,对文本进行识别(Recognition)。

文本检测首先要从图像中切割出可能存在的文字,即“候选连通区域”,然后再对其进行文字/非文字分类。一个字母或文字通常可以分为若干个连通区域,如字母“o”就只有一个连通区域,“i”则拥有两个连通区域。

由于在图像模糊、分辨率低或者噪声较多时,这些冗余像素或者噪声的存在会使得后面的文字/非文字分类问题变得更为复杂。为了提高所获得的候选连通区域的质量,往往利用图像的颜色信息尽可能地滤选连通区域中的冗余像素或者噪声,得到具有视觉感知一致性的颜色空间。

当系统获得了高质量的候选连通区域,就需要对其中的字符进行分辨,确定其是否为文字或非文字。微软亚洲研究院团队提出了一套基于浅层神经网络的文字/非文字分类算法,比以往的算法更加有效。这个算法根据文字本身的特性采用分治策略将原始问题空间划分为5个子空间,每个子空间对应一类文字样本,每个候选连通区域被划分到这5类中的一种。在每个子空间中,都有一个相应的浅层神经网络作为该子空间的文字/非文字分类器——我们可以将该神经网络看作是一个黑盒子,在经过大量学习之后,它便能较为准确的将文字与非文字分类。

这些改进大大增强了OCR在自然场景中的识别本领。之前,在自然场景文字检测的标准数据集进行测试,业界最好的技术所能达到的检测精度是88.5%,而召回率只有66.5%。而在2014年8月,微软亚洲研究院团队在瑞典首都斯德哥尔摩举办的国际模式识别大会(ICPR)上进行的自然场景文字检测测试中取得了92.1%的检测精度和92.3%的召回率。随着研究工作的不断突破,OCR必定还会焕发新机,衍生出更多振奋人心的应用。

放心有好物

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20180731A1URSR00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券