腾讯云大学大咖分享 | 解密OCR文字识别技术

腾讯云大学大咖分享之解密OCR文字识别技术

课程讲师:腾讯云高级工程师 彭碧发

讲师简介:毕业于华中科技大学,负责智能图像相关AI产品,熟悉AI视觉工程化,对计算机图像处理有一定的理解,现担任腾讯云大数据及人工智能产品中心高级工程师。

那么直播中有哪些值得关注的内容呢?学习君和你一起来回顾一下!

OCR通俗来说就是让计算机看图识字的技术,比如在生活中,使用手机可以对身份证进行拍照,并通过一种技术将身份证照片上的文字自动转换成文本信息,这种技术就是OCR其中一种应用场景。这是腾讯云OCR具体的产品定位:

腾讯云OCR在性能、应用场景多样性和接入产品能力方面都具有优势,便于开发者的使用。产品架构则主要由数据层、服务层、平台层和应用层四个层次组成。在平台层方面,这次直播课主要讲的时图片OCR,像身份证识别、手写体识别等功能,开发者都可以通过API接口和SDK的形式去使用。

腾讯云OCR可提供的服务主要分为6个大类,包括通用文字识别、卡证文字识别、票据单据识别、资产证件识别、汽车相关识别和行业文档识别,继续细分共有24种服务;其中通用印刷体识别身份证识别是最重要的服务。开发者可以通过小程序或网页版的演示Demo来体验其中服务。

关于腾讯云OCR技术,主要介绍OCR工程化和引擎。

OCR整体框架从上到下分为用户接入层,web接入层,业务逻辑层,引擎平台层和基础服务层,右边显示的是运营能力。

重点看新改造的引擎平台层,引擎接入和引擎适配都放在了一个工程里面,如下图所示:客户或者评测平台的图片输入到methoddispatcher这个模块,methoddispatcher去获取引擎(这里获取引擎是根据不同客户选择和灰度不同引擎,还可以融合),引擎获取好了之后调用EngineDispatcher进行分发,分发之后调用插件,插件抽象成hanlderreq,handlerheader,handlerrsp三个接口,会先调用前两个方法,调用完之后会跑到具体的引擎那里,引擎获取到结果之后返回,在hanldersp里处理。新版本的引擎平台层有利于开发效率提高和bug减少。

这里讲某一种引擎的评测方法(比如,身份证里的性别),下图是某个接口的误判和召回率曲线图,横坐标是阈值,蓝色的是误判率,橘色的是召回率。而且现在腾讯云OCR也已经可以实现评测流程自动化。

腾讯云通过长期的积累和对该场景的深入分析研究,最终实现了一套业内最先进基于深度学习的OCR整行识别技术,可以无需切分单字,直接识别整行字符。对于行业内普遍存在的文字倾斜、模糊、畸变等技术挑战,腾讯云OCR产品早已克服了。

Q&A

Q:2019年6月7日OCR技术和人脸识别有什么区别?

A:OCR是把图片里的文字直接转换成文字,是文本化;而人脸识别包括人脸比对、人脸核身,比如刷门禁就属于人脸比对。

Q:OCR现在在哪些场景下用得最多?

A:OCR在很多领域都有应用,像身份证识别,还有通用场景。通用场景的应用非常广泛,例如微信的审核、运单类、超市小票等。对超市的小票进行识别,就可以知道卖了多少商品,每个商品的价格。

Q:召回率是什么?

A:召回率是被正确识别的正样本除以整体正样本得出的。

点击观看完整课程


腾讯云大学是腾讯云旗下,面向广大开发者的云技术学习平台。腾讯云大学邀请内部技术大咖,为你提供免费、专业、行业最新技术动态分享!

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券