【Image++团队】鲁棒阅读和离线手写体实现模式识别突破

随着信息碎片化时代的来临,人们每天不得不被迫接受处理生活各种场景中无限砸向面前的信息,被各种终端图像、文字数据搞得力倦神疲。而针对大数据的处理,人工能力显然已经无法应对,人工智能与机器学习或将成为劳动力转移和工业革命的切口。过去一年来,研究人员和开发者在人工智能各领域取得多个重要突破。北京旷视科技旗下的 Megvii Image++团队近日刷新了2015 ICDAR 鲁棒阅读竞赛(Robust Reading Competition)和离线手写体汉字单字识别(公开测试集)双项赛事记录,实现了图像识别技术的又一次突破

其中,国际文档分析与识别大会(ICDAR)是全球文档分析以及模式识别领域最重要的国际学术会议之一,由国际模式识别协会(International Association of Pattern Recognition, IAPR)主办。该会议每两年举办1次,从1991年第1届开始,到2015年已成功举办13届。“鲁棒阅读竞赛”在历届大会中出现过5次,一直被认为是评价和检验自然场景/网络图片/复杂视频文本自动提取与智能识别最新技术研究进展的最重要国际赛事及标准,在计算机视觉、图像处理以及多媒体等领域也具有广泛的影响力。基于对当前和未来技术演进和产业应用趋势的判断,2015 ICDAR 鲁棒阅读竞赛重点关注端到端文字识别(End-to-End Text Recognition)技术的评测,本次竞赛包含4项挑战项目:“网络图片文字端到端识别”(Born-Digital End-to-End Text Recognition )、“自然场景文字端到端识别”(Focused End-to-End Text Recognition)、“视频文字检测”(Video Text Detection)以及“偶然场景文字识别(Incidental Scene Text)”。

ICDAR 2015 鲁棒阅读竞赛第四项挑战第一项任务的官方结果

Megvii Image++参与的是其中难度系数最高的偶然场景文字识别,其难点在于待检测和识别的文字处于复杂的自然场景中,如真实的街道和商场场景、偶然情况下拍摄的文字,因此图像具有复杂性和多变性的特点,且存在噪声、模糊以及角度倾斜等不利因素;另一方面,偶然场景文字识别的数据集是同类型数据集中规模最大的,且绝大多数目标文字为英文。最终Megvii Image++以绝对优势超越包括中科院、南京大学、韩国StradVision公司等在内的优秀竞争团队,分别在文字检测(Text Localization)、单词识别(Word Recognition)以及端到端文字识别(End-to-end text recognition)三项任务中比之前的最好成绩高出13.92%、30.09%、21.78%,从而刷新记录。

自然场景文字检测样例

离线手写体汉字单字识别赛由国际文档分析与识别大会(ICDAR)与中国科学院在2011年和2013年两次主办,其手写汉字数据库由2007到2010年间召集的1020名志愿者所书写,包含六个离线数据集。单个字符的数据集包含7356个类别的3.9万个样本,且手写文字的数据集包含约5,090页约135万字的样本。

离线手写体汉字单字数据集样例

离线手写体汉字单字识别是模式识别领域最具挑战性的课题之一,据ICDAR官方称,人类对汉字单字的识别率为96.1%。此前已知的最好水平是在2015年9月由北京富士通研究开发中心开发的一个使用了1.5亿参数的模型所达到的96.7%的识别精度。而此次在离线手写体汉字单字识别任务中,Megvii Image++采用的模型集合(model ensemble)的方法将识别精度提升到了97.1%。其中最好的单模型使用了一种叫Kronecker分解的技术,只用了0.14亿个参数,就达到了96.6%的精度。参数的减少意味着模型占用的内存和存储空间变少,同时也降低了机器学习中出现过拟合现象的风险。

Megvii Image++ 离线手写汉字识别结果

无论是场景文字识别还是手写汉字识别所取得的进展,都将极大地提高数据录入和处理的效率,并允许各种设备具有读取环境中丰富的文字信息的能力。人们亟待这些前端技术走向产业化发展,投向日常的生产和生活中,如将文字识别技术应用于无人驾驶汽车、盲人导航、工业自动化、互联网信息挖掘、电商打假、品牌曝光率调研等领域。而目前健康应用中的体检表、诊断书、药房签单等录入就有望实现智能化拍照录入,其他金融记账类、拍照翻译类、信息录入类应用都会因为文字识别引擎的性能大幅提升而实现商用化。可以说,计算机图像识别技术的前景无限宽广。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-01-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

NIPS会议机器学习相关内容盘点

1736
来自专栏大数据文摘

盘点| NIPS(神经信息处理系统进展大会)机器学习相关内容

1787
来自专栏机器之心

业界 | 无人机+深度学习,英特尔AI技术高效助力文物保护

通过英特尔人工智能技术、深度学习技术、无人机技术等,如果实现对于箭扣长城的保护与修缮?答案就在视频里。

750
来自专栏新智元

【深度学习进化论】谷歌大脑神经演化新算法 PK OpenAI 集群智能

【新智元导读】神经演化方法在上世纪80年代被提出,由于神经网络的兴起而一度遭受冷遇。不过现在,谷歌大脑和 OpenAI 都在重新审视这种方法。通过在深度学习中引...

3296
来自专栏新智元

【让AI学习更像人】贝叶斯的觉醒:不确定性、高斯过程的重要性

【新智元导读】 深度学习火热的背后,也带来了对神经网络自身能力的质疑,特别是被人诟病的“黑箱”问题。本文介绍了一些通过不同于深度学习的路径实现 AI 的公司,强...

2554
来自专栏吉浦迅科技

(图解)神经网络的复兴:重回风口的深度学习

2012年,「GPU+深度学习」真正引爆革命火花 由于多层神经网络的计算量庞大、训练时间过长,常常跑一次模型就喷掉数周、甚至数月的时间,2006年该时也仅是让学...

36510
来自专栏PaddlePaddle

AI不思议|打Dota2和辩论都赢了,AI真的要超过人类?

继Alpha Go对战围棋天才柯洁取胜后,近期AI技术又出现新战绩。前有IBM的Project Debater与人类辩论胜出,后有Dota2中OpenAI的战队...

922
来自专栏奇点大数据

DeepMind 重大突破:AI 进化出大脑级导航能力,像动物一样会“抄小路”

继在围棋棋盘上轻松战胜人类后,AI似乎在对空间的认知和巡航能力上也要将人类“踩在脚下了。

952
来自专栏CSDN技术头条

NIPS会议机器学习相关内容盘点

今年的NIPS会议是当下人工智能和深度学习热情的一个聚焦点 —— 从中能够感受到机器学习领域的飞速发展,并且公开了两家新的人工智能初创公司。参会人数相比2014...

1986
来自专栏新智元

关于AI的7个误解 | 人工智能核心概念对比

新智元编译 作者:Robin Bordoli 来源:crowdflower 如果你是一名企业主管(而不是数据科学家或机器学习专家),你可能已经从主流媒体的报...

4037

扫码关注云+社区