王磊:AI 时代物流行业的 OCR 应用

OCR 是人工智能里面非常重要的基础能力之一。腾讯云人工智能产品总监王磊,结合物流场景解读了OCR技术。“OCR文本识别能够优化物流行业流程,解放人力降低成本。”

腾讯云人工智能产品总监王磊

王磊介绍,OCR文本识别存在三大挑战。其一是文本是由多个文字拼接组成,没有明显边界,文本框内除了笔画,其余部分均是背景,给文本识别特征提取带来难度;其二是文本是由若干汉字、英文或标点符号混合在一起,长度变化大,由于网络感知野受限,定位BOXES本身困难;其三是如果BOXES贴合精度不够,会直接导致后续的文字识别错误。腾讯优图实验室为OCR识别搭建了四层处理系统,并配备三大引擎。一是运单的版式识别引擎,可以对运单的版式进行分类;二是运单的字段定位引擎;三是运单的字段识别引擎。

为了解决这些问题,腾讯优图实验室在文本检测技术方进行了深度优化,提出了Compact Inception,通过设计合理的网络结构来提升各尺度的文字检测/提取能力。同时引入RNN多层自适应网络和Refinement结构来提升检测完整性和准确性。

在文本识别方面,经过大量实验和实践,腾讯优图实验室对主流CNN+RNN+CTC方法进行了改进和创新:对CNN加入了横向非对称卷积和综合多种尺度感受野的特征,增强了网络对多尺度字体的支持。对RNN加入了Attention机制。Attention机制的加入,可以在所有特征块的基础上,得到每一个特征块在全局中的权重信息。简单的理解,当决定当前字是几个形似字中的哪一个时,该字所处的上下文位置和语义相关性是更具有决定意义的,甚至会比图像信息本身更重要。可以有效提升整行识别的准确率。性能上则通过网络轻量化设计和裁剪、矩阵计算优化、通道优化、GPU/CPU的定向优化等技术,保证了实际应用落地。现在腾讯云OCR能够做到7×24小时提供识别服务,每张运单5秒钟可以完成;识别准确率达到91%,并且整个识别流程不需要人工深度参与,极大的降低用户隐私泄露的风险。

相关推荐

腾讯云王琰:腾讯云AI Cloud的技术、应用布局和趋势

识别手写快递单、听懂人话的小微...腾讯云公布了哪些大动作?

欢迎关注腾讯云技术社区,更多技术干货等着你。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据魔术师

周志华最新演讲:深度学习为什么深?有多好的人才,才可能有多好的人工智能

2167
来自专栏ATYUN订阅号

GANs学会掌握你的时尚品味,并定制出了你的下一套服装

人工智能(AI)可能会催生一种全新的时尚潮流:称之为“预测性时尚”。在ArXiv上发表的一篇论文中,来自加州大学圣地亚哥分校的研究人员和Adobe概述了人工智能...

3614
来自专栏新智元

周志华最新演讲:深度学习为什么深?有多好的人才,才可能有多好的人工智能

?---- 昨天,2018京东人工智能创新峰会举行,京东集团副总裁、AI 平台与研究部负责人周伯文揭开了京东技术布局下的 AI 战略全景图。这个全景图概括起来...

45010
来自专栏人工智能头条

最强大脑第二场战平听音神童!百度大脑小度声纹识别技术算法解析

1926
来自专栏镁客网

技术 | AI研究的盲点:无解的神经网络内在逻辑

1456
来自专栏AI科技评论

重磅 | Yann LeCun清华演讲:讲述深度学习与人工智能的未来

半个月前,Yann LeCun要来清华演讲的消息在国内AI圈一经传开,各位AI界人士便坐不住了。作为Facebook人工智能研究院院长、纽约大学终身教授、卷积神...

32710
来自专栏ATYUN订阅号

IBM的新系统可以自动选择最佳的AI算法

深度学习系统可以摄取数据,转换数据,输出数据并传递数据,但并非所有的都能等同。没有算法适用于每个任务,找到最佳的算法可能是一个漫长而令人沮丧的过程。幸运的是,I...

742
来自专栏大数据文摘

深度 | 深度学习并不是AI的未来

1714
来自专栏机器学习算法与Python学习

从数学入手,3招打破机器学习工程师的边界

对,就是数学。掌握了数学这个机器学习的底层基础,不仅可以加深对算法的理解,还能在模型优化阶段更加游刃有余。

1224
来自专栏深度学习自然语言处理

3招打破机器学习工程师的边界

对,就是数学。掌握了数学这个机器学习的底层基础,不仅可以加深对算法的理解,还能在模型优化阶段更加游刃有余。

913

扫码关注云+社区