前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【Image++团队】鲁棒阅读和离线手写体实现模式识别突破

【Image++团队】鲁棒阅读和离线手写体实现模式识别突破

作者头像
新智元
发布2018-03-14 15:17:49
1.6K0
发布2018-03-14 15:17:49
举报
文章被收录于专栏:新智元新智元

随着信息碎片化时代的来临,人们每天不得不被迫接受处理生活各种场景中无限砸向面前的信息,被各种终端图像、文字数据搞得力倦神疲。而针对大数据的处理,人工能力显然已经无法应对,人工智能与机器学习或将成为劳动力转移和工业革命的切口。过去一年来,研究人员和开发者在人工智能各领域取得多个重要突破。北京旷视科技旗下的 Megvii Image++团队近日刷新了2015 ICDAR 鲁棒阅读竞赛(Robust Reading Competition)和离线手写体汉字单字识别(公开测试集)双项赛事记录,实现了图像识别技术的又一次突破

其中,国际文档分析与识别大会(ICDAR)是全球文档分析以及模式识别领域最重要的国际学术会议之一,由国际模式识别协会(International Association of Pattern Recognition, IAPR)主办。该会议每两年举办1次,从1991年第1届开始,到2015年已成功举办13届。“鲁棒阅读竞赛”在历届大会中出现过5次,一直被认为是评价和检验自然场景/网络图片/复杂视频文本自动提取与智能识别最新技术研究进展的最重要国际赛事及标准,在计算机视觉、图像处理以及多媒体等领域也具有广泛的影响力。基于对当前和未来技术演进和产业应用趋势的判断,2015 ICDAR 鲁棒阅读竞赛重点关注端到端文字识别(End-to-End Text Recognition)技术的评测,本次竞赛包含4项挑战项目:“网络图片文字端到端识别”(Born-Digital End-to-End Text Recognition )、“自然场景文字端到端识别”(Focused End-to-End Text Recognition)、“视频文字检测”(Video Text Detection)以及“偶然场景文字识别(Incidental Scene Text)”。

ICDAR 2015 鲁棒阅读竞赛第四项挑战第一项任务的官方结果

Megvii Image++参与的是其中难度系数最高的偶然场景文字识别,其难点在于待检测和识别的文字处于复杂的自然场景中,如真实的街道和商场场景、偶然情况下拍摄的文字,因此图像具有复杂性和多变性的特点,且存在噪声、模糊以及角度倾斜等不利因素;另一方面,偶然场景文字识别的数据集是同类型数据集中规模最大的,且绝大多数目标文字为英文。最终Megvii Image++以绝对优势超越包括中科院、南京大学、韩国StradVision公司等在内的优秀竞争团队,分别在文字检测(Text Localization)、单词识别(Word Recognition)以及端到端文字识别(End-to-end text recognition)三项任务中比之前的最好成绩高出13.92%、30.09%、21.78%,从而刷新记录。

自然场景文字检测样例

离线手写体汉字单字识别赛由国际文档分析与识别大会(ICDAR)与中国科学院在2011年和2013年两次主办,其手写汉字数据库由2007到2010年间召集的1020名志愿者所书写,包含六个离线数据集。单个字符的数据集包含7356个类别的3.9万个样本,且手写文字的数据集包含约5,090页约135万字的样本。

离线手写体汉字单字数据集样例

离线手写体汉字单字识别是模式识别领域最具挑战性的课题之一,据ICDAR官方称,人类对汉字单字的识别率为96.1%。此前已知的最好水平是在2015年9月由北京富士通研究开发中心开发的一个使用了1.5亿参数的模型所达到的96.7%的识别精度。而此次在离线手写体汉字单字识别任务中,Megvii Image++采用的模型集合(model ensemble)的方法将识别精度提升到了97.1%。其中最好的单模型使用了一种叫Kronecker分解的技术,只用了0.14亿个参数,就达到了96.6%的精度。参数的减少意味着模型占用的内存和存储空间变少,同时也降低了机器学习中出现过拟合现象的风险。

Megvii Image++ 离线手写汉字识别结果

无论是场景文字识别还是手写汉字识别所取得的进展,都将极大地提高数据录入和处理的效率,并允许各种设备具有读取环境中丰富的文字信息的能力。人们亟待这些前端技术走向产业化发展,投向日常的生产和生活中,如将文字识别技术应用于无人驾驶汽车、盲人导航、工业自动化、互联网信息挖掘、电商打假、品牌曝光率调研等领域。而目前健康应用中的体检表、诊断书、药房签单等录入就有望实现智能化拍照录入,其他金融记账类、拍照翻译类、信息录入类应用都会因为文字识别引擎的性能大幅提升而实现商用化。可以说,计算机图像识别技术的前景无限宽广。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-01-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
文字识别
文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档