科普时间:OCR是人工智能的基础之一

在人机交互方面,大多人想到的都是语音交互,毕竟这是人类之间运用率最高的交流方式,且语音识别、自然语言理解等技术目前也发展的相当不错。

但是,我们也不得不忽视这样一个事实:我们每天都被文字所包围,像每天办公的文件、上课的板书、商品的介绍等等都是由文字组成的,并且这些文字在某一程度上也是语音交互的基础,而这其中关乎一个关键的技术——OCR (Optical Character Recognition),光学字符识别。

什么是OCR?

OCR是指光学设备(扫描仪、数码相机等)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,其本质就是利用光学设备去捕获图像并识别文字,将人眼的能力延伸到机器上。此概念是在1929年由德国科学家Tausheck最先提出来的,后来美国科学家Handel也提出了利用技术对文字进行识别的想法。

在20世纪50年代,IBM就开始利用OCR技术实现各类文档的数字化,到了80年代,平板扫描仪的诞生更是让OCR进入了商用阶段,但不管是哪个阶段,那时的OCR设备对于文字背景的要求非常之高,也需要很好的成像质量。

OCR的工作原理

一般来讲,OCR的工作原理包括四个部分:

影像输入:通过光学设备将图片转入计算机后,系统会对图片进行一些处理,包括字符格式的分离、二值化处理、图像降噪、倾斜校正、文字特征抽取等等,以提升图片的精确度;

对比识别:根据字符的不同特征,将之与数据库进行对比,并利用对比后的识别文字与其可能的相似候选字群众,根据前后的识别文字找出最合乎逻辑的词,再作出更正,以加强比对的正确性;

人工校正:目前为止还没有一款软件的文字识别时百分之百的,所以还需要用户亲自校正,确保输出的准确性;

影像输出:结果输出到txt、doc、exl等格式。

现实中,OCR的发展其实已经相当完善了,不过,随着人们需求的变更,此种OCR已经不能满足人们的要求。而在当前,自然环境OCR是人们最为关注的点。

自然环境OCR进展

相比于传统的OCR,自然环境OCR最难的部分在于文本检测(将文字从图片中提取出来),因为它具有极大的多样性和明显的不确定性。如文字中包含多种语言,每种语言含有多种字母,每个字母又可以有不同的大小、字体、颜色、亮度、对比度、排列和对齐方式等;因拍摄图像的随意性,文字区域还可能会产生变形、模糊断裂等现象。另外,背景也是一大干扰因素,如文字区域附近有非常复杂的纹理;非文字区域有着跟文字区域非常相似的纹理,比如窗户、树叶、栅栏、砖墙等。

文本检测首先要从图像中切割出可能存在的文字,即候选连通区域,目前被采取最多的方法是MSER(最大平稳极值区域)。当然,也有团队在此基础上开发出了自己的一套算法,比如微软研究院在传统检测方法ER(极值区域)和MSER基础之上采用了对比极值区域CER(Contrasting Extremal Region),CER是跟周围的背景有一定对比度的极值区域,在低对比度的图像上比MSER效果更好,而且获得的候选连通区域数量远小于ER,提高了算法的效率,并且,为了提高所获得连通区域的质量,微软又增加一个算法环节去增强CER。最后,微软采取了一套基于浅层神经网络的文字/非文字分类算法,进一步提高了对于连通区域字符的辨认率。

在此基础之上,微软研究院的成果也得到了世界的验证。2014年8月,在瑞典首都斯德哥尔摩举办的国际模式识别大会(ICPR)上,微软亚洲研究院团队公布的研究成果在自然场景文字检测的标准数据集(ICDAR-2013测试集)上取得了92.1%的检测精度和92.3%的召回率。据了解,此前业界最好技术的检测精度是88.5%,而召回率只有66.5%。

OCR的应用前景

不管是传统OCR,还是自然环境OCR,其参与者还是不少的。在国内,涉足OCR的企业主要有汉王、文通、百度等,国外的像ABBYY、IRIS、Google、微软等等。此外,市面上也有不少OCR产品,传统的OCR产品有尚书、汉王等,自然环境OCR的有百度翻译、Google翻译,实用性相当的不错。

论起OCR的应用前景的话,仅看其隶属于计算机视觉领域的一个分支,再联系到当前人工智能的发展,其前景可想而知。再往细讲,除了翻译、智能购物意外,OCR未来最大的发展潜力在于人机交互。

众所周知,人机交互一直是研究者追求的东西,但是目前也仅仅做到了语音交互和肢体交互。文字代表了人类的所有智慧与思想,如果机器人能够进行文字识别,那它将能够进一步获取知识、学习人类,进而与人类进行更为自然的交互,或是协助人类工作,提高效率。

原文发布于微信公众号 - 镁客网(im2maker)

原文发表时间:2016-10-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

Google开启全新图像目标检测大赛,场景多样性和复杂度史无前例

1152
来自专栏数据派THU

独家 | 人工智能技术在医学领域的应用与前景(附PPT)

[导读]2017年6月20日,零氪科技首席架构师王晓哲,在清华大学“天池医疗AI大赛”第一季肺部结节智能诊断 《医学影像在肿瘤诊疗中的应用及智能诊断探索》发表演...

8347
来自专栏量子位

腾讯AI Lab开源800万中文词的NLP数据集 | 资源

该数据包含800多万中文词汇,相比现有的公开数据集,在覆盖率、新鲜度及准确性上大幅提高。

8003
来自专栏AI科技大本营的专栏

知乎全力挺进AI,算法大赛打响反击今日头条的第一枪?

作者 | 周翔 知乎和今日头条,你能想象两者有一天会一言不合就相互 diss 吗? 最近几天,知乎大V@恶魔奶爸的一条朋友圈成了今日头条旗下“悟空问答”和知乎之...

3749
来自专栏CDA数据分析师

初学者如何从零学习人工智能?

? 链接:oschina.net/news/78629/beginners-how-to-learn-from-zero-artificial-intelli...

4167
来自专栏智能算法

初学者如何从零学习人工智能?看完你就懂了

来自:开源中国社区 链接:http://www.oschina.net/news/78629/beginners-how-to-learn-from-zero-...

4017
来自专栏机器之心

学界 | 学术盛宴:微软亚洲研究院CVPR 2017论文分享会全情回顾

机器之心原创 作者:Smith 今年 7 月,世界顶级计算机视觉会议 CVPR(计算机视觉与模式识别会议)将在美国夏威夷举行。在此之前,「微软亚洲研究院创研论坛...

5056
来自专栏华章科技

大数据下客户金融产品购买概率预测

本文讨论用逻辑回归模型预测在金融市场情景下客户对金融产品的购买概率,以股票购买持仓概率作为研究对象。并探讨了TB级百万特征金融数据处理方法。

1384
来自专栏华章科技

干货 :数据挖掘中易犯的11大错误

5. 使用了未来的信息(Accept Leaks from the Future)

912
来自专栏数据科学与人工智能

【数据科学】数据科学能回答什么样的问题?

机器学习是数据科学的发动机。每种机器学习方法(也称为算法)获取数据,反复咀嚼,输出结果。机器学习算法负责数据科学里最难以解释又最有趣的部分。数学的魔法在此发生。...

2678

扫码关注云+社区

领取腾讯云代金券