借你一双“慧眼”:一文读懂OCR文字识别︱技术派

摘要:在日常生活工作中,我们难免会遇到一些问题,比如自己辛辛苦苦写完的资料,好不容易打印出来却发现源文件丢了;收集了一些名片,却要一个一个地录入信息,很麻烦;快递公司的业务越来越好,但每天需要花费很多时间登记录入运单,效率非常的低。

那么,有没有什么技术能帮助我们解决这些难题呢?有的,那就是OCR文字识别技术。今天我们请到了腾讯云大数据AI产品中心的AI科学家冀永楠、产品经理Florali、陈英恬,高级工程师肖西华为咱们分享一下腾讯云近年来在这一领域的探索情况。

前面显示:让你把这个世界看得清清楚楚,真真切切

文︱Flora

什么是OCR?

OCR 是实时高效的定位与识别图片中的所有文字信息,返回文字框位置与文字内容。支持多场景、任意版面下整图文字的识别,以及中英文、字母、数字的识别。简单来说,就是将图片上的文字内容,智能识别成为可编辑的文本,例如:

OCR的技术原理是什么?

OCR本质是图像识别。其原理也和其他的图像识别问题基本一样。包含两大关键技术:文本检测和文字识别。先将图像中的特征进行提取并检测目标区域,之后对目标区域的字符进行分割和分类。

以深度学习兴起的时间为分割点,直至近五年之前,业界最为广泛使用的仍然是传统的OCR识别技术框架,而随着深度学习的崛起,基于这一技术的OCR识别框架以另外一种新的思路迅速突破了原有的技术瓶颈(如文字定位、二值化和文字分割等),并已在工业界得到广泛应用。

首先文本定位,接着进行倾斜文本矫正,之后分割出单字后,并对单字识别,最后基于统计模型(如隐马尔科夫链,HMM)进行语义纠错。

OCR技术的难点是什么?

复杂背景、艺术字体、低分辨率、非均匀光照、图像退化、字符形变、多语言混合、文本复杂版式、检测框字符残缺,等等。

如何克服这些难点?

从几个方面入手。一是使用场景,另一方面是从技术上进行改进。腾讯优图实验室在文本检测技术方进行了深度优化,提出了Compact Inception,通过设计合理的网络结构来提升各尺度的文字检测/提取能力。同时引入RNN多层自适应网络和Refinement结构来提升检测完整性和准确性。

腾讯云OCR目前支持什么功能?

基于腾讯优图实验室世界领先的深度学习技术,目前我们已支持:身份证识别,银行卡识别,名片识别,营业执照识别,行驶证驾驶证识别,车牌号识别,通用印刷体识别,手写体识别。

通用印刷体的技术难点,使用场景

我们知道身份证识别可广泛应用在金融行业中,在身份认证中,可以减少用户的信息输入,提升效率,提高用户体验,营业执照的识别完全省去了手工录入的繁琐,还可以为企业省去大量的人力资源成本,这些场景大家都已经比较熟悉。

对于通用印刷体,腾讯优图实验室自主设计一整套全方位多尺度文字识别引擎,可攻破模糊,散焦,透视,文字部分遮挡的问题,识别准确率高达90%以上,处于业界领先水平。使用场景广泛,例如对任意版面上图像的文字识别,可广泛应用在印刷文档、广告图、医疗、物流等行业中的识别。

对于通用印刷体有没有什么好的例子?

例如这个广告,内容多字体多,中英文与数字混合,背景也比较随意。咱们的OCR通过透视矫正、去模糊等,能大幅还原图像真实度,极大提升算法的精确性。

再例如识别文字密集、行间距小,透视畸变等的海报。人工识别需要不仅耗费时间,肉眼也比较难识别。但腾讯云OCR设计了小而精的特征提取网络,配合先进的预处理技术,识别准确率高达93%以上。

有时候也会遇到识别率不理想的情况,如何可以提高识别准确率?

首先会确认下当前的场景,造成准确度不高的原因。评估可提高的空间设计,之后做出相应的修改,列入预处理等等。

关于腾讯云手写体识别这块有没有什么案例?

腾讯是国内首家将手写体识别应用在复杂场景下的服务商,数字识别准确率高达90%以上,单字识别速度在15ms以内,复杂汉字准确率超过80%。

腾讯云手写体OCR已运用到运单识别场景,解决了物流行业每日快递单人工输入工作量极大且极易出错,非常低效等问题。

运单识别与传统人工识别有什么区别呢?

如果传统人工识别按照3min/单,1000单需要6.25个人/天,保证运单时效则需要耗费大量人力,考虑人力成本则影响运单及时性,成本和服务难两全。

我们的运单识别速度可以达到毫秒级/单,并支持24小时识别服务 ,业务增长时只需要投入计算用服务器资源即可,弹性较大。

与传统识别相比,不仅成本可以降低,提高准确性,还可以保护用户的隐私泄露风险。

目前OCR应用现实中有很广泛的应用场景,腾讯云OCR有什么优势?

咱们的OCR文字识别技术,目前支持中文简繁体、英文、数字、标点共10000+标签,覆盖上百种字体,生僻字版本更支持2W+标签 。

那咱们在行业中也有不少落地客户了吧?

新版手Q就用到了咱们的技术,在扫一扫、聊天窗口和空间图片大图预览共三个入口上支持了提取图片中文字的功能。

方便用户阅读、编辑、保存图片上的文字,从而可以对提取出的文字进行翻译、搜索。在多种场景下可以极大提升用户对图片上文字的阅读和记录效率。

企业微信中的名片识别也用到了咱们OCR技术。用户只需拍照或选择名片图片,就能准确快速地识别出名片中的文字,并自动提取为对应的字段,极大简化了名片录入流程,也避免了手动录入过程可能出现的错误。

不管是复杂文字识别场景还是小程序应用,腾讯云OCR都可以解决!目前腾讯云AI服务全面免费接入,为企业,开发者提供成熟可靠、性价比高的产品:https://cloud.tencent.com/act/event/aiAllFree.html

腾讯云AI体验中心

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

京东金融城市计算论文入选IJCAI 2018,郑宇解读地理传感器时间序列预测问题

2315
来自专栏人称T客

SaaS估值新模型SANE的介绍| 报告

T客汇官网:tikehui.com 撰文 | 卿云 由于Twilio(NYSE:TWLO)当时IPO,将其从此分析中将其排除。为了减轻数据中的生存偏差,早期数据...

3355
来自专栏企鹅号快讯

使用人工智能增强人类智能(下)

来源:Distill 编译:weakish 编者按:本周一,Google Brain的Shan Carter和YC Research的Michael Niels...

2319
来自专栏数据猿

【案例】大拇哥财富——互联网金融个人评分模型

数据猿导读 随着互联网技术的不断发展,传统金融业务也从线下不断转移到线上,很多原先在线下的金融机构开始在互联网上开展经营活动。由于线上和线下的经营方式的差异,在...

3866
来自专栏PPV课数据科学社区

干货分享 | 千人专家朱晓天:大数据与人工智能在金融领域的应用

12月9日,以“数智金融-大数据的创新与应用”为主题的第二届中欧大数据金融论坛在深圳举行,国家千人计划金融领域特聘专家、北京大学汇丰商学院金融实验...

3685
来自专栏AI科技评论

学界 | 李飞飞最新论文:结合深度学习和谷歌街景来估算美国人口结构

AI科技评论按:最近,一篇名为《Using Deep Learning and Google Street View to Estimate the Demog...

30811
来自专栏腾讯云技术沙龙

江铖:乳腺癌识别By AI

大家好,今天很高兴能给大家带来这方面的报告。正如大家所看到的,社会平均年龄在逐年增长,大家对健康的意识也是越来越高,与此同时伴随着AI技术的发展,AI医疗方向就...

3898
来自专栏人工智能快报

利用深度学习加速癌症研究

美国橡树岭国家实验室(ORNL)发布消息称,深度学习技术已被用于加速癌症研究。 尽管近几十年来在检测和治疗方面取得了稳步进展,癌症仍然是美国的第二大死亡原因,每...

3646
来自专栏京东技术

「仓储网络智能库存管理问题」最好的答案 | GOC大赛

本篇特约全球运筹优化挑战赛-仓储物流智能库存管理赛题冠军 TP_AI队伍分享赛题解析。来自清华大学经管学院的闵旭和来自北京大学人工智能创新中心的马思源因为比赛走...

3402
来自专栏新智元

论当下机器学习的根本局限 | 一个万能算法会让工程师都失业吗?

2016年10月18日, 世界人工智能大会技术分论坛,特设“新智元智库院长圆桌会议”,重量级研究院院长 7 剑下天山,汇集了中国人工智能产学研三界最豪华院长阵容...

4097

扫码关注云+社区

领取腾讯云代金券