在线课程大咖分享OCR 文字识别的应用及背后技术原理

OCR 文字识别的应用及背后技术原理

手机看

课程福利

机器学习资料集锦囊

腾讯云培训认证体系，助力云开发者成就职业梦想

腾讯产业互联网学堂热门学习路径，0基础上手

OCR 文字识别的应用及背后技术原理 - 课程PPT

1
欢迎关注“腾讯产业互联网学堂”公众号，进行课程学习交流
2
回复口令“2”
3
获得课程福利包

“腾讯产业互联网学堂”微信公众号

讲师简介

彭碧发

高级工程师

毕业于华中科技大学，负责智能图像相关AI产品，熟悉AI视觉工程化，对计算机图像处理有一定的理解，现担任腾讯云大数据及人工智能产品中心高级工程师。

简介

2015年，使用深度学习构建的计算机系统在ImageNet 2012分类任务中超越了人类的视觉能力。是否任意一种图像识别任务都可以通过深度学习的方法，采取端到端的方式解决？如何能够搭建一套有效稳定的图像识别系统呢? 本期议题将介绍图像识别技术的发展历史和深度学习在图像中应用。结合腾讯云的图像识别产品，讲解构建图像识别应用的方法。并举例说明如何通过使用腾讯云API搭建自己的图像识别应用。本次直播课程，将邀请到腾讯云大数据及人工智能产品中心高级工程师彭碧发，讲解腾讯云OCR背后的能力和原理，以及处理问题的一些思考，帮助对文字识别领域感兴趣的开发者快速上手 OCR 文字识别.

课程讲义

腾讯云文字识别（Optical Character Recognition，OCR）基于腾讯领先的深度学习技术，将图片上的文字内容智能识别成为可编辑的文本。既支持身份证、发票等卡证类和票据类的印刷体识别，也支持数学算式等手写体识别，可以有效地代替人工录入信息、提升数据处理效率。

第 1 步：登录控制台。注册并通过实名认证后，您可以登录腾讯云控制台进行使用。如果没有账号，请参考账号注册教程。
第 2 步：创建密钥。完成注册后，您需要在访问管理创建密钥。 AppID、SecretID 和SecretKey 是您进行应用开发的唯一凭证，请妥善保管。
第 3 步：生成签名。通过签名来验证请求的合法性，用户可以使用 AppID、SecretID 和 SecretKey 生成签名，具体签名生成方法请参阅签名鉴权。
第 4 步：调用 API。我们为您提供了丰富多样的 API 接口，您可以查看并调用 OCR 识别接口。
第 5 步：查看调用。您可以登录腾讯云控制台，查看文字识别 OCR 的各服务调用情况。

OCR通俗来说就是让计算机看图识字的技术，比如在生活中，使用手机可以对身份证进行拍照，并通过一种技术将身份证照片上的文字自动转换成文本信息，这种技术就是OCR其中一种应用场景。这是腾讯云OCR具体的产品定位：

腾讯云OCR在性能、应用场景多样性和接入产品能力方面都具有优势，便于开发者的使用。产品架构则主要由数据层、服务层、平台层和应用层四个层次组成。在平台层方面，这次直播课主要讲的时图片OCR，像身份证识别、手写体识别等功能，开发者都可以通过API接口和SDK的形式去使用。

腾讯云OCR可提供的服务主要分为6个大类，包括通用文字识别、卡证文字识别、票据单据识别、资产证件识别、汽车相关识别和行业文档识别，继续细分共有24种服务；其中通用印刷体识别和身份证识别是最重要的服务。开发者可以通过小程序或网页版的演示Demo来体验其中服务。

关于腾讯云OCR技术，主要介绍OCR工程化和引擎。

OCR整体框架从上到下分为用户接入层，web接入层，业务逻辑层，引擎平台层和基础服务层，右边显示的是运营能力。

重点看新改造的引擎平台层，引擎接入和引擎适配都放在了一个工程里面，如下图所示：客户或者评测平台的图片输入到methoddispatcher这个模块，methoddispatcher去获取引擎（这里获取引擎是根据不同客户选择和灰度不同引擎，还可以融合），引擎获取好了之后调用EngineDispatcher进行分发，分发之后调用插件，插件抽象成hanlderreq，handlerheader，handlerrsp三个接口，会先调用前两个方法，调用完之后会跑到具体的引擎那里，引擎获取到结果之后返回，在hanldersp里处理。新版本的引擎平台层有利于开发效率提高和bug减少。