专栏首页腾讯云人工智能借你一双“慧眼”:一文读懂OCR文字识别︱技术派
原创

借你一双“慧眼”:一文读懂OCR文字识别︱技术派

摘要:在日常生活工作中,我们难免会遇到一些问题,比如自己辛辛苦苦写完的资料,好不容易打印出来却发现源文件丢了;收集了一些名片,却要一个一个地录入信息,很麻烦;快递公司的业务越来越好,但每天需要花费很多时间登记录入运单,效率非常的低。

那么,有没有什么技术能帮助我们解决这些难题呢?有的,那就是OCR文字识别技术。今天我们请到了腾讯云大数据AI产品中心的AI科学家冀永楠、产品经理Florali、陈英恬,高级工程师肖西华为咱们分享一下腾讯云近年来在这一领域的探索情况。

前面显示:让你把这个世界看得清清楚楚,真真切切

文︱Flora

什么是OCR?

OCR 是实时高效的定位与识别图片中的所有文字信息,返回文字框位置与文字内容。支持多场景、任意版面下整图文字的识别,以及中英文、字母、数字的识别。简单来说,就是将图片上的文字内容,智能识别成为可编辑的文本,例如:

OCR的技术原理是什么?

OCR本质是图像识别。其原理也和其他的图像识别问题基本一样。包含两大关键技术:文本检测和文字识别。先将图像中的特征进行提取并检测目标区域,之后对目标区域的字符进行分割和分类。

以深度学习兴起的时间为分割点,直至近五年之前,业界最为广泛使用的仍然是传统的OCR识别技术框架,而随着深度学习的崛起,基于这一技术的OCR识别框架以另外一种新的思路迅速突破了原有的技术瓶颈(如文字定位、二值化和文字分割等),并已在工业界得到广泛应用。

首先文本定位,接着进行倾斜文本矫正,之后分割出单字后,并对单字识别,最后基于统计模型(如隐马尔科夫链,HMM)进行语义纠错。

OCR技术的难点是什么?

复杂背景、艺术字体、低分辨率、非均匀光照、图像退化、字符形变、多语言混合、文本复杂版式、检测框字符残缺,等等。

如何克服这些难点?

从几个方面入手。一是使用场景,另一方面是从技术上进行改进。腾讯优图实验室在文本检测技术方进行了深度优化,提出了Compact Inception,通过设计合理的网络结构来提升各尺度的文字检测/提取能力。同时引入RNN多层自适应网络和Refinement结构来提升检测完整性和准确性。

腾讯云OCR目前支持什么功能?

基于腾讯优图实验室世界领先的深度学习技术,目前我们已支持:身份证识别,银行卡识别,名片识别,营业执照识别,行驶证驾驶证识别,车牌号识别,通用印刷体识别,手写体识别。

通用印刷体的技术难点,使用场景

我们知道身份证识别可广泛应用在金融行业中,在身份认证中,可以减少用户的信息输入,提升效率,提高用户体验,营业执照的识别完全省去了手工录入的繁琐,还可以为企业省去大量的人力资源成本,这些场景大家都已经比较熟悉。

对于通用印刷体,腾讯优图实验室自主设计一整套全方位多尺度文字识别引擎,可攻破模糊,散焦,透视,文字部分遮挡的问题,识别准确率高达90%以上,处于业界领先水平。使用场景广泛,例如对任意版面上图像的文字识别,可广泛应用在印刷文档、广告图、医疗、物流等行业中的识别。

对于通用印刷体有没有什么好的例子?

例如这个广告,内容多字体多,中英文与数字混合,背景也比较随意。咱们的OCR通过透视矫正、去模糊等,能大幅还原图像真实度,极大提升算法的精确性。

再例如识别文字密集、行间距小,透视畸变等的海报。人工识别需要不仅耗费时间,肉眼也比较难识别。但腾讯云OCR设计了小而精的特征提取网络,配合先进的预处理技术,识别准确率高达93%以上。

有时候也会遇到识别率不理想的情况,如何可以提高识别准确率?

首先会确认下当前的场景,造成准确度不高的原因。评估可提高的空间设计,之后做出相应的修改,列入预处理等等。

关于腾讯云手写体识别这块有没有什么案例?

腾讯是国内首家将手写体识别应用在复杂场景下的服务商,数字识别准确率高达90%以上,单字识别速度在15ms以内,复杂汉字准确率超过80%。

腾讯云手写体OCR已运用到运单识别场景,解决了物流行业每日快递单人工输入工作量极大且极易出错,非常低效等问题。

运单识别与传统人工识别有什么区别呢?

如果传统人工识别按照3min/单,1000单需要6.25个人/天,保证运单时效则需要耗费大量人力,考虑人力成本则影响运单及时性,成本和服务难两全。

我们的运单识别速度可以达到毫秒级/单,并支持24小时识别服务 ,业务增长时只需要投入计算用服务器资源即可,弹性较大。

与传统识别相比,不仅成本可以降低,提高准确性,还可以保护用户的隐私泄露风险。

目前OCR应用现实中有很广泛的应用场景,腾讯云OCR有什么优势?

咱们的OCR文字识别技术,目前支持中文简繁体、英文、数字、标点共10000+标签,覆盖上百种字体,生僻字版本更支持2W+标签 。

那咱们在行业中也有不少落地客户了吧?

新版手Q就用到了咱们的技术,在扫一扫、聊天窗口和空间图片大图预览共三个入口上支持了提取图片中文字的功能。

方便用户阅读、编辑、保存图片上的文字,从而可以对提取出的文字进行翻译、搜索。在多种场景下可以极大提升用户对图片上文字的阅读和记录效率。

企业微信中的名片识别也用到了咱们OCR技术。用户只需拍照或选择名片图片,就能准确快速地识别出名片中的文字,并自动提取为对应的字段,极大简化了名片录入流程,也避免了手动录入过程可能出现的错误。

不管是复杂文字识别场景还是小程序应用,腾讯云OCR都可以解决!目前腾讯云AI服务全面免费接入,为企业,开发者提供成熟可靠、性价比高的产品:https://cloud.tencent.com/act/event/aiAllFree.html

腾讯云AI体验中心

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 产品动态 | 腾讯云AI 10月产品更新

    10月,文字识别OCR、语音识别、图片标签推出新功能。腾讯云AI团队联合腾讯优图、AILab、微信智聆、微信智言等实验室,帮助合作伙伴和客户高效打造针对性的解决...

    腾讯云AI中心
  • 产品动态|腾讯云AI 5月产品更新

    ? 腾讯云AI团队联合腾讯优图、AILab、微信智聆、微信智言等实验室,帮助合作伙伴和客户高效打造针对性的解决方案,助力各行各业的数字化和智能化转型。 5月,...

    腾讯云AI中心
  • 抗击疫情 | 腾讯云AI免费为战疫开发者提供服务

    为了抗击新冠肺炎病毒疫情,腾讯云AI即日起免费为战疫开发者提供人脸识别、文字识别、语音识别、语音合成、机器翻译、腾讯智能对话平台TBP等服务,直至疫情结束。所有...

    腾讯云AI中心
  • 01. OCR 文字识别学习路径

    由于最近在接触一些OCR的工作,所以本期《晓说AI》和大家分享一下我的一些总结,先从基本的概念讲起。如有错误,还请指正,谢你3千遍。如有疑问,欢迎留言,我会第一...

    Aalto
  • 【Dev Club 分享】深度学习在 OCR 中的应用

    Dev Club 是一个交流移动开发技术,结交朋友,扩展人脉的社群,成员都是经过审核的移动开发工程师。每周都会举行嘉宾分享,话题讨论等活动。 本期,我们邀请了 ...

    腾讯Bugly
  • 深度学习的主要应用举例

    参考资料 ? 最喜欢圆,尤其如此灵动 今天简单说一下 Deep Leaning 在各领域应用的几个例子,可以轻松地看一下它是怎么用在 Computer Visi...

    杨熹
  • 【AIDL专栏】白翔:基于合成数据的场景文本深度表示方法

    目前的文字识别主要有两方面的研究。首先是传统的文字识别,也就是文档中的文字识别,主要是OCR技术,其技术已经比较成熟,效果也比较稳定。另一方面是基于场景的文字识...

    马上科普尚尚
  • 场景文字识别技术,过滤黄赌毒

    作者介绍: 数据平台部OCR+团队负责人。2008年毕业于中国科学院研究生院,主攻模式识别、计算机视觉、图像处理、以及深度学习等方向。读研期间曾在模式识别顶级期...

    腾讯技术工程官方号
  • 提取图片、视频、文献信息的阅读辅助神器:天若OCR文字识别工具

    平时,我们参加一个会议,拍下了关键图片,想搜索相关的文献,却要一个一个字母输入搜索;看一个视频,觉得里面的台词很好,想记录下来,看视频一个一个字母码出来?;网上...

    百味科研芝士
  • 微信小程序基于万象优图实现图片 OCR

    随着小程序开放越来越多的类目,越来越多的企业将各种各样的需求开发成小程序,而基于图像识别的名片识别、身份证识别或者普通文字的 OCR 也越来越多的被应用于各种场...

    Jason

扫码关注云+社区

领取腾讯云代金券