腾讯 AI Lab 计算机视觉中心人脸 & OCR 团队近期成果介绍 ( 2 )

腾讯AI Lab计算机视觉中心人脸&OCR团队是2016年11月底开始组建和开展工作,我们以研发业界领先的算法为目标驱动,逐步克服人手不足、训练数据不足等困难,不断夯实基础,做既有原创性又能落地应用的国际前沿研究。在上一期(腾讯AI Lab 计算机视觉中心人脸&OCR团队近期成果介绍(1))中已经介绍了我们团队的一些研究成果,近期,我们团队有一些新的成果再和大家进一步分享。

1. 人脸研究进展

人脸研究的两大关键任务是人脸检测与人脸识别。在上一期中,我们主要介绍了我们团队在人脸检测的两个国际权威评测平台(WIDER FACE和FDDB)上的研究成果。近期,我们团队在人脸识别的关键任务上也取得突破,在人脸识别的国际权威评测平台(Megaface Challenge)中取得了国际领先的成果。同时,在人脸检测中,我们进一步提高了检测精度,重新刷新了记录。以下具体介绍。

1.1 人脸识别

人脸识别的国际权威评测平台Megaface是由美国华盛顿大学(University of Washington)发布并维护的一个著名的人脸评测平台。它以百万规模人脸注册情况下的1:N和1:1比对作为最重要的性能评定指标。Megaface一共有两个Challenge:Challenge 1可以使用任何外部的人脸数据来训练参赛模型,而Challenge 2严格限定使用官方提供的训练集来训练模型,因此Challenge 2上的评测结果更能体现参赛的人脸算法的性能。每个Challenge都有两个测试集(常规识别测试集和跨年龄识别测试集)。如表1到表4所示,我们原创的人脸算法在常规识别测试集(Facescrub)和跨年龄识别测试集(FGNet)这两项任务中的所有评测指标:识别准确率( 1:N Identification)和验证准确率( 1:1 Verification )均取得第一,超过CMU、NEC等对手。该结果已于8月底发表在MegaFace的官网上(http://megaface.cs.washington.edu/results/facescrub_challenge2.html )。

表1. Megaface Challenge 2的常规识别测试集的识别准确率结果对比

表2. Megaface Challenge 2的常规识别测试集的验证准确率结果对比

表3. Megaface Challenge 2的跨年龄测试集的识别准确率结果对比

表4. Megaface Challenge 2的跨年龄测试集的验证准确率结果对比

1.2 人脸检测

人脸检测是人脸识别的前提和基础,在做人脸识别之前,需要先做人脸检测以检测出目标人脸的存在和精准位置信息。正如上一期介绍中所述,我们团队之前已经在人脸检测中取得佳绩,近期我们进一步改进了方法,在人脸检测的两大国际权威评测平台(WIDER FACE和FDDB)上取得了更好的结果。

在人脸检测国际权威评测平台WIDER FACE(这也是目前国际上难度最大的人脸检测的评测平台)上,如图1所示,我们的最新方法Face R-FCN在WIDER FACE的验证集和测试集的所有三个子集(Easy, Medium, and Hard)上都取得国际领先的结果,超过了美国CMU大学、马里兰大学等人脸研究团队。这个结果新近发布于WIDER FACE官网上(http://mmlab.ie.cuhk.edu.hk/projects/WIDERFace/WiderFace_Results.html)。相关技术文档(Yitong Wang, Xing Ji, Zheng Zhou, Hao Wang, Zhifeng Li. Detecting Faces Using Region-based Fully Convolutional Networks. arXiv preprint arXiv:1709.05256, 2017.)也已发布于arXiv网站,链接请见 https://arxiv.org/abs/1709.05256 。图2是一些人脸检测结果的样例,对于很多极具挑战性的人脸,我们的人脸检测模型也能很好的检测出来。

图1.人脸检测国际权威评测平台WIDER FACE上的结果对比。第一行的三张图代表验证集的三个子集(Easy, Medium, and Hard)的结果对比,第二行的三张图代表测试集的三个子集(Easy, Medium, and Hard)的结果对比。我们的方法Face R-FCN在验证集和测试集的所有三个子集中都领先竞争对手。

图2.人脸检测国际权威评测平台WIDER FACE上的人脸检测样例(绿框代表我们检测到的人脸,红框代表官方标注的人脸)

在人脸检测另一个国际权威评测平台FDDB上,我们也重新刷新了纪录,我们的最新方法Face R-FCN在FDDB评测的关键指标:离散得分曲线中,2000误检数时的召回率达到99.42%。这个结果大幅超过了我们之前的结果(98.74%),进一步刷新了这个记录。更多细节可以参阅我们的技术报告:https://arxiv.org/abs/1709.05256 和FDDB官方网站 http://vis-www.cs.umass.edu/fddb/results.html#rocpub

2. OCR研究进展

在上一期中我们介绍了我们团队在OCR的国际权威评测平台ICDAR(International Conference on Document Analysis and Recognition)竞赛里所取得的佳绩,我们当时在ICDAR的互联网图片(Born-Digital Images)数据集上的两个任务(文本定位和单词识别)上都取得国际领先。最近,我们在ICDAR竞赛的另一个核心数据集:对焦自然场景图片(Focused Scene Text Images),也取得突破。以下详细介绍。

2.1 对焦自然场景图片里的文本定位任务比赛(Task1-Text Localization, ICDARFocused Scene Text Images)

Focused Scene Text Image是用相机对准自然场景存在的文本拍摄得到的图像,这些文本包括海报、交通标志、告示牌、橱窗、店铺名称、衣服、铭牌等物体上的字符,文本定位任务就是确定图像中文本行的准确边界。该任务的训练集229幅,测试集233幅。由于自然场景中的文本定位和识别是OCR领域中的一个重要的研究方向,有一些研究机构和个人公布了自己收集和标注的数据集,通过搜集这些公开的数据集获得图像1560幅,作为补充训练集。在训练网络时,对训练集用了多种手段做了数据增强,实际训练集扩充到20000幅左右。我们的最新模型在该任务上取得了第一名的佳绩,如下图所示。

图3. 对焦自然场景图片里的文本定位任务比赛排名(http://rrc.cvc.uab.es/?ch=2&com=evaluation&task=1

部分检测结果如下图所示,全部的检测结果可在网站上查询,网址:http://rrc.cvc.uab.es/?ch=2&com=evaluation&view=method_samples&task=1&m=30717&gtv=1

图4. 部分文本检测结果

2.2.对焦自然场景图片里的单词识别任务比赛(Task3-Word Recognition,ICDAR Focused Scene Text Images)

Focused Scene Text Image单词识别任务需要在文本图像中抠出单词区域,四个边界向外扩展4个像素点,构成数据集,训练集848幅,测试集1095幅。在训练网络时,使用外部数据集约900万幅。采用CNN提取图像特征,采用RNN学习序列关系,并加入Attention机制以改善RNN的性能,进行识别。我们的最新模型在该任务上取得了第一名的佳绩,如下图所示。

图5. 对焦自然场景图片里的单词识别任务比赛排名(http://rrc.cvc.uab.es/?ch=2&com=evaluation&task=3

部分单词如下图所示,这些单词在字体、尺寸、排列间距、倾斜、阴影、背景、模糊等方面都有变化,我们一方面增强网络结构以适应这些变化,另一方面有针对性的生成大量的合成样本用于训练网络,最终克服了这些不利因素,正确识别出单词。

图6. 部分单词图像

2.3.互联网场景图片里的文本定位任务比赛(Task1-Text Localization,ICDAR Born Digital Images)

近期,我们改进了用于互联网图片文本检测的网络结构,再一次刷新了互联网场景图片里的文本定位任务比赛上的记录,如下图所示。全部的检测结果可在网站上查询,网址:http://rrc.cvc.uab.es/?ch=1&com=evaluation&view=method_samples&task=1&m=30556>v=1

图7. 互联网图片文本检测任务上的排名(http://rrc.cvc.uab.es/?ch=1&com=evaluation&task=1

2.4.互联网场景图片里的单词识别任务比赛(Task3-Word Recognition,ICDAR Born Digital Images)

我们改进了用于互联网图片单词识别的网络结构,加入Attention机制来改善RNN的性能,再一次刷新了互联网场景图片里的单词识别任务比赛上的记录,如下图所示。

图8. 互联网图片单词识别任务上的排名(http://rrc.cvc.uab.es/?ch=1&com=evaluation&task=3

3. 项目合作

人脸与OCR是计算机视觉领域应用非常广泛,受到工业界和学术界高度关注的一个研究领域和方向,不仅难度很大而且竞争非常激烈。因此我们团队研发的原创算法不仅需要在各种国际权威评测平台里验证算法的领先性,而且需要与业务部门开展项目合作,在产品侧落地应用以找出不足、补齐短板、提升性能,并利用海量业务数据不断迭代更新模型,以更好、更专业地服务伙伴部门。

就项目合作而言,我们人脸&OCR团队与TEG信安团队以及MIG互联网+合作事业部政企项目组都有着深入、密切的合作。由于团队人手紧张,近期我们主要聚焦于MIG互联网+合作事业部政企项目组的合作项目中。政企项目组旨在利用互联网技术,简化人们生活中的各种办事流程,让数据多跑路,百姓少跑腿,方便广大人民群众办事。其中,基于上传证件的身份认证是多项业务的基石。这种合作是双赢的,一方面,我们发挥自身的技术优势,提供稳定、准确、快速的证件人脸识别、人脸核对、文本识别等底层功能,政企项目组的同事利用这些功能展开上层业务逻辑,大幅提高服务效率并减少运营成本;另一方面,政企项目组的同事及时反馈合适的样本数据和失败案例给我们,我们则根据这些反馈改进算法和模型,并最终促进自身技术能力的提高。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

CCAI 2017 | 日本理化学研究所先进智能研究中心主任杉山将:弱监督机器学习的研究进展

794
来自专栏新智元

目标检测竞赛利器:中星微一步法模型获国际算法竞赛第一名!

【新智元导读】近日,在国际计算机视觉竞赛PASCAL VOC,中星微以89.0分的总成绩位列第一,获得目标检测单模型第一名。获胜的模型是一步法的目标检测模型,本...

550
来自专栏奇点大数据

机器学习工程师必知的十大算法

作者 James Le ,译者 尚剑 毫无疑问,机器学习/人工智能的子领域在过去几年越来越受欢迎。目前大数据在科技行业已经炙手可热,而基于大量数据来进行预测或者...

3414
来自专栏机器之心

你的论文能否中顶会?这篇分析同行评审结果的论文可帮助你

1944
来自专栏PPV课数据科学社区

练功 | 机器学习应补充哪些数学基础?

编者按:很多同学开始学习机器学习时候遇到的最大障碍就是数学基础,机器学习到底需要学习哪些数据知识?要掌握到什么程度呢?希望这篇文章对于大家学习大数据和机器学习有...

34910
来自专栏量化投资与机器学习

【全网首发】——机器学习该如何应用到量化投资系列(一)

有一些单纯搞计算机、数学或者物理的人会问,究竟怎么样应用 ML 在量化投资。他们能做些什么自己擅长的工作。虽然在很多平台或者自媒体有谈及有关的问题,但是不够全面...

3048
来自专栏机器之心

业界 | 作画、写诗、弹曲子,AI还能这么玩?

随着深度学习取得的成功,算法研究已经进入了另一个人类认为不受自动化技术影响的领域:创造引人入胜的艺术品。

550
来自专栏CDA数据分析师

业界 | 作画、写诗、弹曲子,AI还能这么玩?

随着深度学习取得的成功,算法研究已经进入了另一个人类认为不受自动化技术影响的领域:创造引人入胜的艺术品。

902
来自专栏新智元

NIPS-16 | 无监督学习“感知分组”概念获突破,深度学习或迎来变革

【新智元导读】神经网络在图像中的物体识别上准确率做到75%,这是来自芬兰的一群研究员在NIPS2016 上公布的最新成果。他们使用的核心概念是“感知分组” (P...

3606
来自专栏新智元

【Kaggle冠军分享】图像识别和分类竞赛,数据增强及优化算法

【新智元导读】Kaggle 海洋鱼类识别和分类竞赛冠军团队技术分享:如何设计鲁棒的优化算法?如何分析数据并做数据增强?技术细节包括使用不同船只的图像进行验证,以...

3848

扫码关注云+社区