【Image++团队】鲁棒阅读和离线手写体实现模式识别突破

随着信息碎片化时代的来临,人们每天不得不被迫接受处理生活各种场景中无限砸向面前的信息,被各种终端图像、文字数据搞得力倦神疲。而针对大数据的处理,人工能力显然已经无法应对,人工智能与机器学习或将成为劳动力转移和工业革命的切口。过去一年来,研究人员和开发者在人工智能各领域取得多个重要突破。北京旷视科技旗下的 Megvii Image++团队近日刷新了2015 ICDAR 鲁棒阅读竞赛(Robust Reading Competition)和离线手写体汉字单字识别(公开测试集)双项赛事记录,实现了图像识别技术的又一次突破

其中,国际文档分析与识别大会(ICDAR)是全球文档分析以及模式识别领域最重要的国际学术会议之一,由国际模式识别协会(International Association of Pattern Recognition, IAPR)主办。该会议每两年举办1次,从1991年第1届开始,到2015年已成功举办13届。“鲁棒阅读竞赛”在历届大会中出现过5次,一直被认为是评价和检验自然场景/网络图片/复杂视频文本自动提取与智能识别最新技术研究进展的最重要国际赛事及标准,在计算机视觉、图像处理以及多媒体等领域也具有广泛的影响力。基于对当前和未来技术演进和产业应用趋势的判断,2015 ICDAR 鲁棒阅读竞赛重点关注端到端文字识别(End-to-End Text Recognition)技术的评测,本次竞赛包含4项挑战项目:“网络图片文字端到端识别”(Born-Digital End-to-End Text Recognition )、“自然场景文字端到端识别”(Focused End-to-End Text Recognition)、“视频文字检测”(Video Text Detection)以及“偶然场景文字识别(Incidental Scene Text)”。

ICDAR 2015 鲁棒阅读竞赛第四项挑战第一项任务的官方结果

Megvii Image++参与的是其中难度系数最高的偶然场景文字识别,其难点在于待检测和识别的文字处于复杂的自然场景中,如真实的街道和商场场景、偶然情况下拍摄的文字,因此图像具有复杂性和多变性的特点,且存在噪声、模糊以及角度倾斜等不利因素;另一方面,偶然场景文字识别的数据集是同类型数据集中规模最大的,且绝大多数目标文字为英文。最终Megvii Image++以绝对优势超越包括中科院、南京大学、韩国StradVision公司等在内的优秀竞争团队,分别在文字检测(Text Localization)、单词识别(Word Recognition)以及端到端文字识别(End-to-end text recognition)三项任务中比之前的最好成绩高出13.92%、30.09%、21.78%,从而刷新记录。

自然场景文字检测样例

离线手写体汉字单字识别赛由国际文档分析与识别大会(ICDAR)与中国科学院在2011年和2013年两次主办,其手写汉字数据库由2007到2010年间召集的1020名志愿者所书写,包含六个离线数据集。单个字符的数据集包含7356个类别的3.9万个样本,且手写文字的数据集包含约5,090页约135万字的样本。

离线手写体汉字单字数据集样例

离线手写体汉字单字识别是模式识别领域最具挑战性的课题之一,据ICDAR官方称,人类对汉字单字的识别率为96.1%。此前已知的最好水平是在2015年9月由北京富士通研究开发中心开发的一个使用了1.5亿参数的模型所达到的96.7%的识别精度。而此次在离线手写体汉字单字识别任务中,Megvii Image++采用的模型集合(model ensemble)的方法将识别精度提升到了97.1%。其中最好的单模型使用了一种叫Kronecker分解的技术,只用了0.14亿个参数,就达到了96.6%的精度。参数的减少意味着模型占用的内存和存储空间变少,同时也降低了机器学习中出现过拟合现象的风险。

Megvii Image++ 离线手写汉字识别结果

无论是场景文字识别还是手写汉字识别所取得的进展,都将极大地提高数据录入和处理的效率,并允许各种设备具有读取环境中丰富的文字信息的能力。人们亟待这些前端技术走向产业化发展,投向日常的生产和生活中,如将文字识别技术应用于无人驾驶汽车、盲人导航、工业自动化、互联网信息挖掘、电商打假、品牌曝光率调研等领域。而目前健康应用中的体检表、诊断书、药房签单等录入就有望实现智能化拍照录入,其他金融记账类、拍照翻译类、信息录入类应用都会因为文字识别引擎的性能大幅提升而实现商用化。可以说,计算机图像识别技术的前景无限宽广。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-01-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

AI教父Geoff Hinton和深度学习的40年

因为伤了背,Geoff Hinton已经站着工作了12年,似乎巧合地迎合了现在“站立工作”的这股风潮。

992
来自专栏数据科学与人工智能

【数据挖掘】客户价值分析

使用RFM方法(最近购买日Recency, 各期购买频率Frequency, 各期平均单次购买金额Monetary)能够科学地预测老客户(有交易客户)今后的购买...

26110
来自专栏京东技术

京东AI研究院在CVPR 2018 LIP 全球竞赛中荣获两项冠军

1993
来自专栏机器人网

17张思维导图,全面掌握机器学习的统计基础知识

原图下载:https://pan.baidu.com/s/1midnOSC 本文用一系列「思维导图」由浅入深的总结了「统计学」领域的基础知识,是对之前系列文章...

3428
来自专栏大数据文摘

金融风控领域的工业级大数据应用: 如何跨越AI与业务经验结合前的鸿沟?

1372
来自专栏安恒信息

安恒信息两篇核心AI异常检测论文入选IEEE DSC国际会议

6月18日-21日,“第三届IEEE网络空间数据科学国际会议”在广州召开。业界代表及专家齐聚一堂,并就网络空间数据科学的科研和前沿发展方向进行交流。而安恒信息的...

1614
来自专栏腾讯云安全的专栏

TenSec 再掀 AI 热:腾讯云如何将 AI 应用于安全

1755
来自专栏AI科技评论

赛后跟踪:如何在 ImageNet 比赛中获得冠军?

近两个月,国内团队先后在全球权威的人脸检测评测平台 FDDB 和全球自动驾驶算法公开排行榜 KITTI 以及 Cityscapes 上取得非常好的成绩,这在一定...

3595
来自专栏全栈数据化营销

Excel商业数据分析案例:产品销售市场选择决策实例分析

某海产品批发商每天需要采购500斤的海产品,一直在城市的A市场销售海,每天都能卖完,价格也基本不变,成本也相对固定为1000元,如下图所示:

2232
来自专栏PPV课数据科学社区

技术前沿 : 大数据下的用户与价值分析。

大数据下,用户分析的核心是什么? ——解决实际问题   确定用户分析目的,具体是为了降低成本?增加收入?优化用户体验?提升营销效果?用户针对性管理? 确定目的...

3023

扫码关注云+社区