【Image++团队】鲁棒阅读和离线手写体实现模式识别突破

随着信息碎片化时代的来临,人们每天不得不被迫接受处理生活各种场景中无限砸向面前的信息,被各种终端图像、文字数据搞得力倦神疲。而针对大数据的处理,人工能力显然已经无法应对,人工智能与机器学习或将成为劳动力转移和工业革命的切口。过去一年来,研究人员和开发者在人工智能各领域取得多个重要突破。北京旷视科技旗下的 Megvii Image++团队近日刷新了2015 ICDAR 鲁棒阅读竞赛(Robust Reading Competition)和离线手写体汉字单字识别(公开测试集)双项赛事记录,实现了图像识别技术的又一次突破

其中,国际文档分析与识别大会(ICDAR)是全球文档分析以及模式识别领域最重要的国际学术会议之一,由国际模式识别协会(International Association of Pattern Recognition, IAPR)主办。该会议每两年举办1次,从1991年第1届开始,到2015年已成功举办13届。“鲁棒阅读竞赛”在历届大会中出现过5次,一直被认为是评价和检验自然场景/网络图片/复杂视频文本自动提取与智能识别最新技术研究进展的最重要国际赛事及标准,在计算机视觉、图像处理以及多媒体等领域也具有广泛的影响力。基于对当前和未来技术演进和产业应用趋势的判断,2015 ICDAR 鲁棒阅读竞赛重点关注端到端文字识别(End-to-End Text Recognition)技术的评测,本次竞赛包含4项挑战项目:“网络图片文字端到端识别”(Born-Digital End-to-End Text Recognition )、“自然场景文字端到端识别”(Focused End-to-End Text Recognition)、“视频文字检测”(Video Text Detection)以及“偶然场景文字识别(Incidental Scene Text)”。

ICDAR 2015 鲁棒阅读竞赛第四项挑战第一项任务的官方结果

Megvii Image++参与的是其中难度系数最高的偶然场景文字识别,其难点在于待检测和识别的文字处于复杂的自然场景中,如真实的街道和商场场景、偶然情况下拍摄的文字,因此图像具有复杂性和多变性的特点,且存在噪声、模糊以及角度倾斜等不利因素;另一方面,偶然场景文字识别的数据集是同类型数据集中规模最大的,且绝大多数目标文字为英文。最终Megvii Image++以绝对优势超越包括中科院、南京大学、韩国StradVision公司等在内的优秀竞争团队,分别在文字检测(Text Localization)、单词识别(Word Recognition)以及端到端文字识别(End-to-end text recognition)三项任务中比之前的最好成绩高出13.92%、30.09%、21.78%,从而刷新记录。

自然场景文字检测样例

离线手写体汉字单字识别赛由国际文档分析与识别大会(ICDAR)与中国科学院在2011年和2013年两次主办,其手写汉字数据库由2007到2010年间召集的1020名志愿者所书写,包含六个离线数据集。单个字符的数据集包含7356个类别的3.9万个样本,且手写文字的数据集包含约5,090页约135万字的样本。

离线手写体汉字单字数据集样例

离线手写体汉字单字识别是模式识别领域最具挑战性的课题之一,据ICDAR官方称,人类对汉字单字的识别率为96.1%。此前已知的最好水平是在2015年9月由北京富士通研究开发中心开发的一个使用了1.5亿参数的模型所达到的96.7%的识别精度。而此次在离线手写体汉字单字识别任务中,Megvii Image++采用的模型集合(model ensemble)的方法将识别精度提升到了97.1%。其中最好的单模型使用了一种叫Kronecker分解的技术,只用了0.14亿个参数,就达到了96.6%的精度。参数的减少意味着模型占用的内存和存储空间变少,同时也降低了机器学习中出现过拟合现象的风险。

Megvii Image++ 离线手写汉字识别结果

无论是场景文字识别还是手写汉字识别所取得的进展,都将极大地提高数据录入和处理的效率,并允许各种设备具有读取环境中丰富的文字信息的能力。人们亟待这些前端技术走向产业化发展,投向日常的生产和生活中,如将文字识别技术应用于无人驾驶汽车、盲人导航、工业自动化、互联网信息挖掘、电商打假、品牌曝光率调研等领域。而目前健康应用中的体检表、诊断书、药房签单等录入就有望实现智能化拍照录入,其他金融记账类、拍照翻译类、信息录入类应用都会因为文字识别引擎的性能大幅提升而实现商用化。可以说,计算机图像识别技术的前景无限宽广。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-01-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Pulsar-V

C#下各种获取时间的姿势

直接贴代码吧 DateTime dt = DateTime.Now; Label1.Text = dt.ToString();//2005-11-5 13:21...

3236
来自专栏互联网开发者交流社区

WinForm之窗体应用程序

1863
来自专栏码匠的流水账

聊聊EurekaRibbonClientConfiguration

spring-cloud-netflix-eureka-client-2.0.0.RELEASE-sources.jar!/org/springframewor...

1171
来自专栏闻道于事

商城项目整理(三)JDBC增删改查

商品表的增加,修改,删除,订单表的增加,确认,用户表的查看,日志表的增加,查看 商品表建表语句: 1 create table TEST.GOODS_TABL...

5485
来自专栏阿炬.NET

c# datetime 格式化

2856
来自专栏xingoo, 一个梦想做发明家的程序员

windows程序设计-第四章 system1.c

/*---------------------------------------------------- SYSMETS1.C -- System M...

23710
来自专栏码匠的流水账

聊聊spring cloud的AbstractLoadBalancingClient

本文主要研究一下spring cloud的AbstractLoadBalancingClient

842
来自专栏海说

Java应用中常见的JDBC连接字符串(SQLite、MySQL、Oracle、Sybase、SQLServer、DB2)

Java应用中常见的JDBC连接字符串 Java应用中连接数据库是不可或缺的,于是便整理一些可能用到的JDBC的jar包及其相匹配的URL,以备日后查阅。 1)...

2740
来自专栏张善友的专栏

Using sqlite with .NET

The other day I found that there is a .NET wrapper for sqlite. sqlite is a very ...

2298
来自专栏跟着阿笨一起玩NET

GB2312转换成UTF-8与utf_8转换成GB2312

1911

扫码关注云+社区