腾讯数平精准推荐|斩获2017年第14届国际文档分析与识别竞赛四项冠军

上周双十一全民狂欢节,当大家纷纷在剁手买买买的时候,腾讯数平精准推荐团队也发生了一件大事。

北京时间11月9日,OCR领域的奥斯卡盛会——第14届国际文档分析与识别大会(ICDAR)在日本京都召开,揭晓了2017年ICDAR竞赛结果并颁发获奖证书。

腾讯数平精准推荐团队自研了「时空上下文感知的OCR深度学习算法」,在最受关注的“Robust Reading Competitions”中的“COCO-TEXT 端到端文本识别”、“医学文献图像文本检测”、“医学文献图像文本识别”、“医学文献图像端到端识别”任务上斩获四项冠军。与往届数据集公开后的非正式竞相刷榜不同,ICDAR官方认证的正式竞赛采用全新的数据集,赛期内不公布参赛团队信息,且只允许提供一份结果,堪称是OCR领域的“华山论剑”,本次也是腾讯数平精准推荐团队首次出征ICDAR官方认证竞赛。

(图一) ICDAR 2017 获奖证书

到底什么是【ICDAR】?

国际文档分析与识别大会ICDAR( International Conference on Document Analysis and Recognition)是由国际模式识别协会IAPR(International Association of Pattern Recognition)举办的模式识别、计算机视觉、图像处理领域最为重要的国际学术会议之一。ICDAR专注于文本领域的识别与应用,每两年举办一次,自1991年第一届开始,至今已经成功举办了十四届。自从2003年大会开始设立“Robust Reading Competitions”以来,该竞赛就成为了评测和检验自然场景/网络图片/复杂视频文本自动提取与智能识别最新技术研究进展的最为重要的国际赛事及标准,在国际模式识别、文档分析与识别等领域具有重要的影响力。同时该竞赛由于其较高的技术难度,以及强大的实际应用性,多年来一直是各大科研院校、科技公司关注竞逐的焦点。截止目前,已经有89个国家的3500多支队伍在ICDAR数据集参加过竞逐(图二),其中Google、微软、腾讯、阿里巴巴、百度、三星、商汤、海康等科技公司都取得过不错的成绩,竞赛中涌现出的许多方法都对OCR技术的发展起到了强大的推动作用。

(图二) 参赛队伍数量统计

今年的“Robust Reading Competitions”,同样吸引了国内外众多的工业界、学术界的注意力,包括腾讯、海康、三星、英特尔、中科院、港大等都有参与该竞赛。数平精准推荐团队参加了其中的两项极有挑战性的竞赛任务,分别是:

1、COCO-TEXT

(Challenge on COCO-TEXT)

该项竞赛采用的数据集COCO-TEXT,选自Microsoft COCO (Common Objects in Context)数据集,是目前该领域最大的场景文本检测与识别数据集,包含4.4万张训练图片、1万张验证图片和1万张测试图片。图片主要由复杂的日常场景图片组成,数据规模、检测与识别难度均远超前几届竞赛,竞赛图片如图三所示。

数平精准推荐参赛结果: 端到端第一, 识别第二,检测第四。

(图三) COCO-TEXT 示例图片

2、DeText

(Challenge on Text Extraction from Biomedical Literature Figures)

该项竞赛主要目的在于评测OCR算法对于医学文献中插图上的文本检测与识别能力,主要难点在于医学文献插图上文本布局复杂、字体较小、符号复杂以及医学单词复杂等,部分竞赛图片如图四所示。

数平精准推荐参赛结果: 端到端、检测、识别三项第一。

(图四)DeText 示例图片

数平精准推荐团队(Tencent Data Platform Precision Recommendation, Tencent-DPPR)是腾讯内部一支致力于实时精准推荐、海量大数据分析及挖掘等领域技术研发与技术落地的专业技术团队。团队在文本识别领域上已经深耕细作多年,自研的基于深度学习方法的文本检测与识别技术在往届ICDAR竞赛数据集上也曾多次刷新世界纪录。相关技术在公司内部众多产品中得到使用,例如:腾讯慧眼、手Q看点、话题圈、天御、社交广告等业务,尤其在广告推荐的场景中,通过OCR 技术对广告的素材创意进一步的识别和理解,大幅提升了用户点击率预估的效果。

后续我们将通过TEG《科技云端》专业号,在11月底相继推出系列文章,包括检测篇、识别篇、数据篇、系统篇等,全方位介绍数平精准推荐文本识别技术以及ICDAR2017参赛算法细节,敬请期待。

文章来自:TEG云端专业号

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

脑洞 | AI之间有一场“搏击赛”,邪恶 AI 能否被战胜?

1703
来自专栏机器人网

解读主流的人工智能芯片有什么不同?

 在全球规模最大的2018北美消费电子产品展上,参展的科技企业超过4000家,包括高通、英伟达、英特尔、LG、IBM、百度在内的业界科技巨头纷纷发布了各自最新的...

3619
来自专栏人人都是极客

AI芯片的历史和现状

人的思维活动是否能用计算机来替代,从图灵的论文《计算机器与智能》和图灵测试,到最初级的神经元模拟单元——感知机,到现在多达上百层的深度神经网络,对人工智能的探索...

1114
来自专栏算法+

音频识别算法思考与阶段性小结

主要是 回复 给我发邮件以及QQ上询问的朋友们的一些疑问和需求,这里稍作回复一下。

911
来自专栏一条二哈的AI成长路

人脸识别长篇研究

人脸识别(Face Recognition)是一种依据人的面部特征(如统计或几何特征等),自动进行身份识别的一种生物识别技术,又称为面像识别、人像识别、相貌识别...

63714
来自专栏AI科技评论

Google AI:如何破解AI学术研究的赢者诅咒?

AI 科技评论按:当我们为各种测评任务中取得的分数欢欣鼓舞时,可能我们已经受到了「赢者诅咒」。 赢者诅咒:赢得拍卖品的中标者出价高于其他竞标者,但他很可能对拍...

33410
来自专栏量子位

再谈“炼金术”:可以使用不严谨的方法,但拒绝不严谨的评估方法

原作:inFERENCe 安妮 编译自 inference.vc 量子位 出品 | 公众号 QbitAI 昨天,NIPS大会中“Test of Time”最具时...

2435
来自专栏大数据文摘

学界 | 马里兰大学研究:人脑神经网络的动态变化和声音感知

1343
来自专栏机器之心

专访 | 追一科技首席科学家杨振宇:对话机器人里不能「耳闻目览」却又「无所不在」的 AI

机器之心原创 作者:邱陆陆 对话机器人是「怎样炼成的」。 相比于语音和图像,自然语言是一个有「更多需求」和「更少标准答案」的领域。扎根自然语言的公司通常也不是从...

3469
来自专栏腾讯高校合作

【犀牛鸟·学问】腾讯AI Lab犀牛鸟访问学者系列报告研讨会

711

扫码关注云+社区