OCR 文字识别的应用及背后技术原理

1
机器学习资料集锦囊
7
腾讯云培训认证体系,助力云开发者成就职业梦想
4
腾讯产业互联网学堂热门学习路径,0基础上手
1
OCR 文字识别的应用及背后技术原理 - 课程PPT
  • 1
    关注“腾讯产业互联网学堂”公众号加群互动有好礼相送
  • 2
    回复口令“2”
  • 3
    获得课程福利包
腾讯产业互联网学堂微信公众号
“腾讯产业互联网学堂”微信公众号

讲师简介

彭碧发

高级工程师

毕业于华中科技大学,负责智能图像相关AI产品,熟悉AI视觉工程化,对计算机图像处理有一定的理解,现担任腾讯云大数据及人工智能产品中心高级工程师。

简介

2015年,使用深度学习构建的计算机系统在ImageNet 2012分类任务中超越了人类的视觉能力。是否任意一种图像识别任务都可以通过深度学习的方法,采取端到端的方式解决?如何能够搭建一套有效稳定的图像识别系统呢? 本期议题将介绍图像识别技术的发展历史和深度学习在图像中应用。结合腾讯云的图像识别产品,讲解构建图像识别应用的方法。并举例说明如何通过使用腾讯云API搭建自己的图像识别应用。 本次直播课程,将邀请到腾讯云大数据及人工智能产品中心高级工程师彭碧发,讲解腾讯云OCR背后的能力和原理,以及处理问题的一些思考,帮助对文字识别领域感兴趣的开发者快速上手 OCR 文字识别.

课程讲义

腾讯云文字识别(Optical Character Recognition,OCR)基于腾讯领先的深度学习技术,将图片上的文字内容智能识别成为可编辑的文本。既支持身份证、发票等卡证类和票据类的印刷体识别,也支持数学算式等手写体识别,可以有效地代替人工录入信息、提升数据处理效率。 

  • 第 1 步:登录控制台。注册并通过实名认证后,您可以登录 腾讯云控制台 进行使用。如果没有账号,请参考 账号注册教程。
  • 第 2 步:创建密钥。完成注册后,您需要在 访问管理 创建密钥。 AppID、SecretID 和SecretKey 是您进行应用开发的唯一凭证,请妥善保管。
  • 第 3 步:生成签名。通过签名来验证请求的合法性,用户可以使用 AppID、SecretID 和 SecretKey 生成签名,具体签名生成方法请参阅 签名鉴权。
  • 第 4 步:调用 API。我们为您提供了丰富多样的 API 接口,您可以查看并调用 OCR 识别接口。
  • 第 5 步:查看调用。您可以登录 腾讯云控制台,查看文字识别 OCR 的各服务调用情况。

OCR通俗来说就是让计算机看图识字的技术,比如在生活中,使用手机可以对身份证进行拍照,并通过一种技术将身份证照片上的文字自动转换成文本信息,这种技术就是OCR其中一种应用场景。这是腾讯云OCR具体的产品定位:

腾讯云OCR在性能、应用场景多样性和接入产品能力方面都具有优势,便于开发者的使用。产品架构则主要由数据层、服务层、平台层和应用层四个层次组成。在平台层方面,这次直播课主要讲的时图片OCR,像身份证识别、手写体识别等功能,开发者都可以通过API接口和SDK的形式去使用。

腾讯云OCR可提供的服务主要分为6个大类,包括通用文字识别、卡证文字识别、票据单据识别、资产证件识别、汽车相关识别和行业文档识别,继续细分共有24种服务;其中通用印刷体识别身份证识别是最重要的服务。开发者可以通过小程序或网页版的演示Demo来体验其中服务。

关于腾讯云OCR技术,主要介绍OCR工程化和引擎。

OCR整体框架从上到下分为用户接入层,web接入层,业务逻辑层,引擎平台层和基础服务层,右边显示的是运营能力。

重点看新改造的引擎平台层,引擎接入和引擎适配都放在了一个工程里面,如下图所示:客户或者评测平台的图片输入到methoddispatcher这个模块,methoddispatcher去获取引擎(这里获取引擎是根据不同客户选择和灰度不同引擎,还可以融合),引擎获取好了之后调用EngineDispatcher进行分发,分发之后调用插件,插件抽象成hanlderreq,handlerheader,handlerrsp三个接口,会先调用前两个方法,调用完之后会跑到具体的引擎那里,引擎获取到结果之后返回,在hanldersp里处理。新版本的引擎平台层有利于开发效率提高和bug减少。

这里讲某一种引擎的评测方法(比如,身份证里的性别),下图是某个接口的误判和召回率曲线图,横坐标是阈值,蓝色的是误判率,橘色的是召回率。而且现在腾讯云OCR也已经可以实现评测流程自动化。

腾讯云通过长期的积累和对该场景的深入分析研究,最终实现了一套业内最先进基于深度学习的OCR整行识别技术,可以无需切分单字,直接识别整行字符。对于行业内普遍存在的文字倾斜、模糊、畸变等技术挑战,腾讯云OCR产品早已克服了。

Q&A

Q:2019年6月7日OCR技术和人脸识别有什么区别?

A:OCR是把图片里的文字直接转换成文字,是文本化;而人脸识别包括人脸比对、人脸核身,比如刷门禁就属于人脸比对。

Q:OCR现在在哪些场景下用得最多?

A:OCR在很多领域都有应用,像身份证识别,还有通用场景。通用场景的应用非常广泛,例如微信的审核、运单类、超市小票等。对超市的小票进行识别,就可以知道卖了多少商品,每个商品的价格。

Q:召回率是什么?

A:召回率是被正确识别的正样本除以整体正样本得出的。

全部评论
讲师/助教

评论

直播日历