腾讯 AI Lab 计算机视觉中心人脸 & OCR 团队近期成果介绍 ( 2 )

腾讯AI Lab计算机视觉中心人脸&OCR团队是2016年11月底开始组建和开展工作,我们以研发业界领先的算法为目标驱动,逐步克服人手不足、训练数据不足等困难,不断夯实基础,做既有原创性又能落地应用的国际前沿研究。在上一期(腾讯AI Lab 计算机视觉中心人脸&OCR团队近期成果介绍(1))中已经介绍了我们团队的一些研究成果,近期,我们团队有一些新的成果再和大家进一步分享。

1. 人脸研究进展

人脸研究的两大关键任务是人脸检测与人脸识别。在上一期中,我们主要介绍了我们团队在人脸检测的两个国际权威评测平台(WIDER FACE和FDDB)上的研究成果。近期,我们团队在人脸识别的关键任务上也取得突破,在人脸识别的国际权威评测平台(Megaface Challenge)中取得了国际领先的成果。同时,在人脸检测中,我们进一步提高了检测精度,重新刷新了记录。以下具体介绍。

1.1 人脸识别

人脸识别的国际权威评测平台Megaface是由美国华盛顿大学(University of Washington)发布并维护的一个著名的人脸评测平台。它以百万规模人脸注册情况下的1:N和1:1比对作为最重要的性能评定指标。Megaface一共有两个Challenge:Challenge 1可以使用任何外部的人脸数据来训练参赛模型,而Challenge 2严格限定使用官方提供的训练集来训练模型,因此Challenge 2上的评测结果更能体现参赛的人脸算法的性能。每个Challenge都有两个测试集(常规识别测试集和跨年龄识别测试集)。如表1到表4所示,我们原创的人脸算法在常规识别测试集(Facescrub)和跨年龄识别测试集(FGNet)这两项任务中的所有评测指标:识别准确率( 1:N Identification)和验证准确率( 1:1 Verification )均取得第一,超过CMU、NEC等对手。该结果已于8月底发表在MegaFace的官网上(http://megaface.cs.washington.edu/results/facescrub_challenge2.html )。

表1. Megaface Challenge 2的常规识别测试集的识别准确率结果对比

表2. Megaface Challenge 2的常规识别测试集的验证准确率结果对比

表3. Megaface Challenge 2的跨年龄测试集的识别准确率结果对比

表4. Megaface Challenge 2的跨年龄测试集的验证准确率结果对比

1.2 人脸检测

人脸检测是人脸识别的前提和基础,在做人脸识别之前,需要先做人脸检测以检测出目标人脸的存在和精准位置信息。正如上一期介绍中所述,我们团队之前已经在人脸检测中取得佳绩,近期我们进一步改进了方法,在人脸检测的两大国际权威评测平台(WIDER FACE和FDDB)上取得了更好的结果。

在人脸检测国际权威评测平台WIDER FACE(这也是目前国际上难度最大的人脸检测的评测平台)上,如图1所示,我们的最新方法Face R-FCN在WIDER FACE的验证集和测试集的所有三个子集(Easy, Medium, and Hard)上都取得国际领先的结果,超过了美国CMU大学、马里兰大学等人脸研究团队。这个结果新近发布于WIDER FACE官网上(http://mmlab.ie.cuhk.edu.hk/projects/WIDERFace/WiderFace_Results.html)。相关技术文档(Yitong Wang, Xing Ji, Zheng Zhou, Hao Wang, Zhifeng Li. Detecting Faces Using Region-based Fully Convolutional Networks. arXiv preprint arXiv:1709.05256, 2017.)也已发布于arXiv网站,链接请见 https://arxiv.org/abs/1709.05256 。图2是一些人脸检测结果的样例,对于很多极具挑战性的人脸,我们的人脸检测模型也能很好的检测出来。

图1.人脸检测国际权威评测平台WIDER FACE上的结果对比。第一行的三张图代表验证集的三个子集(Easy, Medium, and Hard)的结果对比,第二行的三张图代表测试集的三个子集(Easy, Medium, and Hard)的结果对比。我们的方法Face R-FCN在验证集和测试集的所有三个子集中都领先竞争对手。

图2.人脸检测国际权威评测平台WIDER FACE上的人脸检测样例(绿框代表我们检测到的人脸,红框代表官方标注的人脸)

在人脸检测另一个国际权威评测平台FDDB上,我们也重新刷新了纪录,我们的最新方法Face R-FCN在FDDB评测的关键指标:离散得分曲线中,2000误检数时的召回率达到99.42%。这个结果大幅超过了我们之前的结果(98.74%),进一步刷新了这个记录。更多细节可以参阅我们的技术报告:https://arxiv.org/abs/1709.05256 和FDDB官方网站 http://vis-www.cs.umass.edu/fddb/results.html#rocpub

2. OCR研究进展

在上一期中我们介绍了我们团队在OCR的国际权威评测平台ICDAR(International Conference on Document Analysis and Recognition)竞赛里所取得的佳绩,我们当时在ICDAR的互联网图片(Born-Digital Images)数据集上的两个任务(文本定位和单词识别)上都取得国际领先。最近,我们在ICDAR竞赛的另一个核心数据集:对焦自然场景图片(Focused Scene Text Images),也取得突破。以下详细介绍。

2.1 对焦自然场景图片里的文本定位任务比赛(Task1-Text Localization, ICDARFocused Scene Text Images)

Focused Scene Text Image是用相机对准自然场景存在的文本拍摄得到的图像,这些文本包括海报、交通标志、告示牌、橱窗、店铺名称、衣服、铭牌等物体上的字符,文本定位任务就是确定图像中文本行的准确边界。该任务的训练集229幅,测试集233幅。由于自然场景中的文本定位和识别是OCR领域中的一个重要的研究方向,有一些研究机构和个人公布了自己收集和标注的数据集,通过搜集这些公开的数据集获得图像1560幅,作为补充训练集。在训练网络时,对训练集用了多种手段做了数据增强,实际训练集扩充到20000幅左右。我们的最新模型在该任务上取得了第一名的佳绩,如下图所示。

图3. 对焦自然场景图片里的文本定位任务比赛排名(http://rrc.cvc.uab.es/?ch=2&com=evaluation&task=1

部分检测结果如下图所示,全部的检测结果可在网站上查询,网址:http://rrc.cvc.uab.es/?ch=2&com=evaluation&view=method_samples&task=1&m=30717&gtv=1

图4. 部分文本检测结果

2.2.对焦自然场景图片里的单词识别任务比赛(Task3-Word Recognition,ICDAR Focused Scene Text Images)

Focused Scene Text Image单词识别任务需要在文本图像中抠出单词区域,四个边界向外扩展4个像素点,构成数据集,训练集848幅,测试集1095幅。在训练网络时,使用外部数据集约900万幅。采用CNN提取图像特征,采用RNN学习序列关系,并加入Attention机制以改善RNN的性能,进行识别。我们的最新模型在该任务上取得了第一名的佳绩,如下图所示。

图5. 对焦自然场景图片里的单词识别任务比赛排名(http://rrc.cvc.uab.es/?ch=2&com=evaluation&task=3

部分单词如下图所示,这些单词在字体、尺寸、排列间距、倾斜、阴影、背景、模糊等方面都有变化,我们一方面增强网络结构以适应这些变化,另一方面有针对性的生成大量的合成样本用于训练网络,最终克服了这些不利因素,正确识别出单词。

图6. 部分单词图像

2.3.互联网场景图片里的文本定位任务比赛(Task1-Text Localization,ICDAR Born Digital Images)

近期,我们改进了用于互联网图片文本检测的网络结构,再一次刷新了互联网场景图片里的文本定位任务比赛上的记录,如下图所示。全部的检测结果可在网站上查询,网址:http://rrc.cvc.uab.es/?ch=1&com=evaluation&view=method_samples&task=1&m=30556>v=1

图7. 互联网图片文本检测任务上的排名(http://rrc.cvc.uab.es/?ch=1&com=evaluation&task=1

2.4.互联网场景图片里的单词识别任务比赛(Task3-Word Recognition,ICDAR Born Digital Images)

我们改进了用于互联网图片单词识别的网络结构,加入Attention机制来改善RNN的性能,再一次刷新了互联网场景图片里的单词识别任务比赛上的记录,如下图所示。

图8. 互联网图片单词识别任务上的排名(http://rrc.cvc.uab.es/?ch=1&com=evaluation&task=3

3. 项目合作

人脸与OCR是计算机视觉领域应用非常广泛,受到工业界和学术界高度关注的一个研究领域和方向,不仅难度很大而且竞争非常激烈。因此我们团队研发的原创算法不仅需要在各种国际权威评测平台里验证算法的领先性,而且需要与业务部门开展项目合作,在产品侧落地应用以找出不足、补齐短板、提升性能,并利用海量业务数据不断迭代更新模型,以更好、更专业地服务伙伴部门。

就项目合作而言,我们人脸&OCR团队与TEG信安团队以及MIG互联网+合作事业部政企项目组都有着深入、密切的合作。由于团队人手紧张,近期我们主要聚焦于MIG互联网+合作事业部政企项目组的合作项目中。政企项目组旨在利用互联网技术,简化人们生活中的各种办事流程,让数据多跑路,百姓少跑腿,方便广大人民群众办事。其中,基于上传证件的身份认证是多项业务的基石。这种合作是双赢的,一方面,我们发挥自身的技术优势,提供稳定、准确、快速的证件人脸识别、人脸核对、文本识别等底层功能,政企项目组的同事利用这些功能展开上层业务逻辑,大幅提高服务效率并减少运营成本;另一方面,政企项目组的同事及时反馈合适的样本数据和失败案例给我们,我们则根据这些反馈改进算法和模型,并最终促进自身技术能力的提高。

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

500款各领域机器学习数据集,总有一个是你要找的

金融 美国劳工部统计局官方发布数据:http://dataju.cn/Dataju/web/datasetInstanceDetail/139 沪深股票除权除息...

95411
来自专栏大数据文摘

我们请来了2017 NIPS大会发文数全球前3的华人教授,讲解网络数据的表征学习(视频+PPT)

1166
来自专栏量子位

国内学者新研究:中医AI登场,自动开出药方

问耕 发自 凹非寺 量子位 出品 | 公众号 QbitAI ? 啊~医学,一个正在被人工智能改变的领域。 一讲到这个,常见的报道大都是AI阅X光片无数,无师自通...

4326
来自专栏AI科技评论

深度 | 微软如何通过人工智能将你的手机变成植物百科全书

你是否遇到过这种情况?——外出与小孩散步,TA发现一朵很漂亮的花,跑过来问你是什么,但是你突然愣住了—因为你并不知道它是什么花。 目前世界上至少存在250000...

3127
来自专栏专知

Google AI发起包容性图像比赛(The Inclusive Images Competition)

【导读】大型公开可用的图像数据集(如ImageNet,Open Images和Conceptual Captions)是开发有价值的机器学习(ML)模型的必要和...

813
来自专栏机器之心

学界 | 学术盛宴:微软亚洲研究院CVPR 2017论文分享会全情回顾

机器之心原创 作者:Smith 今年 7 月,世界顶级计算机视觉会议 CVPR(计算机视觉与模式识别会议)将在美国夏威夷举行。在此之前,「微软亚洲研究院创研论坛...

4546
来自专栏量子位

斯坦福公布3D街景数据集:2500万张图像,8个城市模型 | 下载

安妮 编译整理 量子位 出品 | 公众号 QbitAI 近日,斯坦福大学的研究人员公布了一个数据集,其中包含带有相机姿态的街景数据、8个城市的3D模型和拓展的元...

3024
来自专栏新智元

【难度越大,优势越大】腾讯AI Lab刷新人脸识别与人脸检测国际记录

编辑:闻菲 【新智元导读】日前,腾讯AI Lab在国际最大、最难的人脸检测平台WIDER FACE与热门人脸识别平台MegaFace多项评测指标获得第一,刷新了...

3326
来自专栏计算机视觉life

【深度相机系列一】iPhone X的原深感相机到底是个什么玩意?

9月13日苹果发布了致敬十周年的新机型iPhone X,其中前置原深感(TrueDepth)相机引起了极大的舆论关注。该相机的构成如下图所示。从左到右,依次是红...

2536
来自专栏人工智能头条

从How-Old.net看人脸识别技术的演进

1193

扫码关注云+社区