模式识别新研究：微软OCR两层优化提升自然场景下的文字识别精度

用户1737318

发布于 2018-06-05 11:19:30

2.2K0

鼠标发明人Douglas Engelbart曾经针对人工智能的简称AI提出了另一个理念——Augmented Intelligence，即增强智能。在他看来，人已经足够聪明，我们无需再去复制人类，而是可以从更加实用的角度，将人类的智能进一步延伸，让机器去增强人的智能。

OCR （Optical Character Recognition，光学字符识别）就是这样的一项技术，它的本质上是利用光学设备去捕获图像并识别文字，将人眼的能力延伸到机器上。本文将介绍OCR技术在移动环境下面临的新挑战，以及在自然场景图像下微软研究院文字识别技术的进展。

OCR的新挑战

早在20世纪50年代，IBM就开始利用OCR技术实现各类文档的数字化。到20世纪90年代，诞生十年的平板扫描仪对印刷体文本的识别率就已经达到99%以上，OCR由此迎来了第一个应用高潮。当时最著名的事件是谷歌数字图书馆，谷歌还申请了图书扫描专利，实现了批量化的高速扫描。在此期间，手写字体的识别也在并行发展，被广泛用于邮件分拣、支票分类、手写表格数字化等领域。

然而，自从2004年拥有300万像素摄像头的智能手机诞生之日起，这一情况发生了根本改变。越来越多的人随手拿起手机拍摄所看到的事物和场景，而此类自然场景中的文字识别难度远远高于平板扫描仪时期，即便是印刷字体，也不能得到很高的识别率，更别说手写体了。学术界因此将自然场景中的文字识别作为全新的课题来对待。

自然场景图像中的文字识别大大难于扫描仪图像中的文字识别，因为它具有极大的多样性和明显的不确定性。如文字中包含多种语言，每种语言含有多种字母，每个字母又可以有不同的大小、字体、颜色、亮度、对比度等；文字通常以文本行的形式存在，但文本行可能有不同的排列和对齐方式，横向、竖向、弯曲都有可能；因拍摄图像的随意性，图像中的文字区域还可能会产生变形（透视和仿射变换）、残缺、模糊断裂等现象。

自然场景图片中的文字多样性示例

此外，与传统 OCR 技术中的扫描文档图像相比，自然场景图像的背景更为复杂。如文字可能不是写在平面上而是在曲面上；文字区域附近有非常复杂的纹理和噪声；图像中的非文字区域有着跟文字区域非常相似的纹理，比如窗户、树叶、栅栏、砖墙等。这些复杂背景会极大增加误检率。

本文检测的改进方法

由于自然场景下的文字识别难度大，微软亚洲研究院团队对相关技术和算法进行了针对性的优化，从三个方面对文本检测技术进行了改进，并取得突破。通常，OCR识别的步骤可以分为两步：首先是文本检测（Text detection），将文字从图片中提取出来；然后，对文本进行识别（Recognition），此次的突破主要是在文本检测环节的两个子阶段。

阶段①：采用对比极值区域CER检测方法

一个字母或文字通常可以分为若干个连通区域，如o就拥有一个连通区域，i则拥有两个连通区域，文本检测首先要从图像中切割出可能存在的文字，即候选连通区域，然后再对其进行文字/非文字分类。

在确定候选连通区域阶段，微软亚洲研究院团队在传统检测方法ER（Extremal Region，极值区域）和MSER（Maximally Stable Extremal Region，最大平稳极值区域）基础之上采用了对比极值区域CER（Contrasting Extremal Region），CER是跟周围的背景有一定对比度的极值区域，这个对比度至少要强到能够被人眼感知到，在低对比度的图像上比MSER效果更好，而且获得的候选连通区域数量远小于ER，候选范围大大缩小，提高了算法的效率。

为了提高所获得的候选连通区域的质量，微软亚洲研究院团队决定增加一个算法环节去增强CER。尤其在图像模糊、分辨率低或者噪声较多时，提取出来的CER有可能会含有冗余像素或者噪声，这些冗余像素或者噪声的存在会使得后面的文字/非文字分类问题变得更为复杂。

算法优化的另一个特点，是采用基于感知的光照不变（Perception-based Illumination Invariant, PII）颜色空间中的颜色信息去增强CER，利用颜色信息尽可能滤除CER中的冗余像素或者噪声，从而得到Color-enhanced CER。该颜色空间具有视觉感知一致性，而且对光照不敏感，更接近人眼对颜色的判断。

受噪声影响的CER示例

在实际操作中，并不是每个CER都需要通过颜色信息来增强，因为有很多CER本身颜色均匀，没有噪声，尤其是在图片质量很高的时候。因此，在对CER进行增强操作之前我们会先判断该CER是否需要增强操作，以减少不必要的计算复杂度。

对CER的颜色增强效果示例

算法提取出来的候选连通区域结果示例

阶段②：基于浅层神经网络的文字/非文字分类算法

当获得了高质量的候选连通区域，就需要对其中的字符进行分辨，确定其是否为文字或非文字，微软亚洲研究院团队提出了一套基于浅层神经网络的文字/非文字分类算法，比以往的算法更加有效。

该算法根据文字本身的特性采用分治策略将原始问题空间划分为5个子空间，每个子空间对应一类文字样本，分别命名为Long类，Thin类，Fill类，Square-large类和 Square-small类（如下图所示），于是每个候选连通区域被划分到这5类中的一种。

文字类问题空间划分示例

在每个子空间中，微软亚洲研究院团队利用无歧义学习策略训练一个相应的浅层神经网络，作为该子空间的文字/非文字分类器，我们可以将该神经网络看作是一个黑盒子，在经过大量学习之后，它便能较为准确的将文字与非文字分类。

每次分类动作包括两个阶段——预剪枝（Pre-pruning）阶段和验证（Verification）阶段。在预剪枝阶段，分类器的任务是尽可能滤除无歧义的非文字候选连通区域；在验证阶段，则通过引入更多信息来消除孤立连通区域的歧义性，从而进一步滤除有歧义的非文字候选连通区域。

改进的有效性得到了验证。2014年8月，在瑞典首都斯德哥尔摩举办的国际模式识别大会（ICPR）上，微软亚洲研究院团队公布的研究成果在自然场景文字检测的标准数据集（ICDAR-2013测试集）上取得了92.1%的检测精度和92.3%的召回率。此前业界最好技术的检测精度是88.5%，而召回率只有66.5%，多年来这些数字每年增长只有几个百分点。

应用前景分析

人类需求牵引科技发展走到今天，智慧的无限延伸决定了世界的无限潜能。10年前的简单通讯工具手机如今已成为智慧生活的伴侣，曾经只被扫描仪应用的OCR技术亦已焕发新机。随着OCR研究工作的不断突破，云计算、大数据以及通讯网络的快速发展，以及智能眼镜、可穿戴设备等智能设备的推陈出新，OCR的应用也将充满无限机会、无限可能性。

我们也可以设想一下OCR在未来工作中的应用场景：每次工作会议后，无需再把白板上的讨论内容抄写下来，然后群发邮件布置任务，前端只要将白板用手机等智能设备拍照留存，后端可以对其进行实时分析和处理，系统便能自动识别并分检出相关人员的后续工作，并将待办事项自动存放到各自的电子日历中。

事实上，基于微软亚洲研究院的OCR核心技术，微软前不久推出的Office Lens应用，已经可以通过视觉计算技术自动对图像进行清理并把它保存到OneNote，而OneNote中基于云端的OCR技术将对图片进行文字识别，随后用户就可以拥有一个可编辑、可搜索的数字文件，这为上述未来应用场景打下了基础。

作者简介：

霍强博士，微软亚洲研究院首席研究员

Qiang Huo is a Principal Research Manager of Speech Group in Microsoft Research Asia (MSRA), Beijing, China. Prior to joining MSRA in August 2007, he had been a faculty member at the Department of Computer Science, The University of Chinese Hong Kong since 1998. From 1995 to 1997, Dr. Huo worked at Advanced Telecommunications Research Institute (ATR) in Kyoto, Japan. In the past 30 years, he has been doing research and making contributions in the areas of speech recognition, handwriting recognition, OCR, gesture recognition, biometric-based user authentication, hardware design for speech and image processing.

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2015-03-31，如有侵权请联系 cloudcommunity@tencent.com 删除

模式识别