腾讯 AI Lab 计算机视觉中心人脸 & OCR 团队近期成果介绍(1)

导语:腾讯 AI Lab 计算机视觉中心人脸&OCR 团队专注于领域内国际前沿技术研究与应用,近期取得部分成果,这里和大家分享一下。

1. 人脸检测研究进展 

1.1 WIDER FACE 评测结果

WIDER FACE 是由香港中文大学维护的人脸检测国际权威评测平台,包含训练集、验证集和测试集,总共有 3.2 万张图像,39 万个标注人脸,标注人脸有很大程度的尺寸、姿态和遮挡等变化,是目前国际上最大的也是最有挑战性的人脸检测的国际评测平台。WIDER FACE 数据集提供了三个子数据集(Easy、Medium、Hard)用于性能评估,采用 PR 曲线评测算法性能。我们团队研发的人脸检测算法 Face R-CNN 在 WIDER FACE 的三个子数据集(Easy、Medium、Hard)的验证集和测试集上均取得了第一的成绩(如下图),该结果已于 6 月初发表于 WIDER FACE 的官网上(http://mmlab.ie.cuhk.edu.hk/projects/WIDERFace/WiderFace_Results.html) 。相关技术文档(Hao Wang, Zhifeng Li, Xing Ji, Yitong Wang. Face R-CNN. arXiv preprint arXiv:1706.01061, 2017.)也已发布在 arXiv 上(https://arxiv.org/abs/1706.01061)

图 1. WIDER FACE 上的评测结果对比 

图 2. WIDER FACE 上的人脸检测结果样例(绿框是我们检测到的人脸,红框是官方发布的人脸)。

1.2 FDDB 评测结果

FDDB(Face Detection Data Set and Benchmark)是美国马萨诸塞大学维护的人脸检测国际评测平台。它是一个无约束自然场景的人脸检测数据集,该数据集总共包含不同自然场景下拍摄的 2845 张图像,5171 个标注人脸,使用 ROC 曲线评测算法性能。我们团队研发的 Face R-CNN 算法在 FDDB 上也取得了国际领先的成果,我们在 2000 个误报样本的条件下取得了 98.74%的召回率,排名第一。该结果也已于 6 月初发表在 FDDB 的官网上。

相关链接:http://vis-www.cs.umass.edu/fddb/results.html

图 3. FDDB 上我们的离散 ROC 曲线(discrete ROC curve)和近期 published 经典方法的对比。

 表一. FDDB 上的离散得分性能对比(2000 误检数时)

图 4. FDDB 上的人脸检测结果样例(绿框是我们检测到的人脸,红圈是官方发布的人脸)。

2. OCR 研究进展 

ICDAR(International Conference on Document Analysis and Recognition)是一个聚焦于 OCR 领域技术研究的国际权威会议,设有多项竞赛,和公司业务接近的有互联网图片(Born-Digital Images)和自然场景图片(Focused/Incidental Scene Text Images)中的文本提取的竞赛,每个竞赛包含定位、分割、识别和端到端四个任务。近来由于 RNN 的出现,对于检测到的单词可以直接去做识别,所以分割这个任务已没有太大意义。我们团队针对 TEG 的业务范围,目前聚焦在互联网图片上。 

2.1 ICDAR Born-Digital Images Task1 Text Localization

Born-Digital 文本检测任务在网页图像构成的数据集上进行,训练集 410 幅,测试集 141 幅。在训练网络时,对训练集进行多种变形,扩充,实际训练集在 4000 幅左右。采用 FCN 作为检测网络,在文本检测任务上取得了第一名的成绩。

相关链接:http://rrc.cvc.uab.es/?ch=1&com=evaluation&task=1

图 5. 文本检测任务上的排名

图 6. 部分检测结果及评价标准,更多的结果可在网站上查询。 

2.2 ICDAR Born-Digital Images Task3 Word Recognition

Born-Digital 单词识别任务在上述图像中抠出单词区域,四个边界向外扩展 4 个像素点,构成数据集,训练集 3567 幅,测试集 1439 幅。在训练网络时,使用外部数据集约 900 万幅。采用 CNN 提取图像特征,采用 RNN 学习序列关系,进行识别,在单词识别任务上取得了第一名的成绩。

相关链接:http://rrc.cvc.uab.es/?ch=1&com=evaluation&task=3

图 7. 单词识别任务上的排名

图 8. 部分识别结果及其评价标准,更多的结果可在网站上查询

团队秉承"专业、服务、伙伴"的理念,不断夯实基础,做有原创性的研究和坚实的工作,为伙伴部门提供高品质的技术支持,目前已承担多项部门内和跨部门的合作项目。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | 机器理解中的迁移学习,斯坦福联合微软提出SynNet网络

选自arXiv 机器之心编译 参与:李亚洲、Smith 近日,斯坦福大学、微软联合发表了一篇论文,提出了一种在机器理解(MC)中使用 2-阶段合成网络(SynN...

37315
来自专栏腾讯技术工程官方号的专栏

腾讯AI Lab解析2017 NIPS三大研究方向,启动教授及学生合作项目

第一部分我们介绍在NIPS上启动与推介的针对教授、学者与学生的共享AI合作项目。第二部分对NIPS探讨的递归神经网络、随机或一阶优化及生成模型等三大研究领域做...

26110
来自专栏量子位

南开大学开源新图像分割算法,刷新精度记录 | 资源

最近,南开大学提出一种边缘检测和图像分割算法,被称为首个在图像分割数据集BSDS500上F值(F-Feature)超越数据集本身人工标注平均值的实时算法。

713
来自专栏目标检测和深度学习

MIT 6.S094· 深度学习 | 学霸的课程笔记,我们都替你整理好了

雷锋字幕组获MIT课程团队授权翻译自动驾驶课程,视频链接:http://www.mooc.ai/course/483/info 我们为你整理了每一个Lectu...

1002
来自专栏机器之心

学界 | 用单张图片推理场景结构:UC Berkeley提出3D景深联合学习方法

选自BAIR Blog 作者:Shubham Tulsiani、Tinghui Zhou 机器之心经授权编译 参与:smith、蒋思源、李泽南 最近,UC Be...

3105
来自专栏数据科学与人工智能

【智能】机器学习:信用风险建模中的挑战,教训和机遇

由于数据可用性和计算能力的快速增长,机器学习现在在技术和业务中发挥着至关重要的作用。机器学习对信用风险建模应用程序有重大贡献。 使用两个大型数据集,我们分析了一...

773
来自专栏机器之心

ICLR 2018 | 清华&斯坦福提出深度梯度压缩DGC,大幅降低分布式训练网络带宽需求

选自arXiv 作者:林宇鋆、韩松等 机器之心编译 参与:刘晓坤 来自清华大学和斯坦福大学的研究者们发现,分布式随机梯度下降训练中 99.9% 的梯度交换都是冗...

3038
来自专栏新智元

线性模型可解释一定比DNN高?UCSD科学家:大错特错!

【新智元导读】人们对深度学习模型的真正运行机制还远远没有完全了解,如何提高预测模型的“可解释性”成了一个日益重要的话题。近来的一篇论文讨论了机器学习模型的“可解...

422
来自专栏AI研习社

自拍抠图抠到手软?详解如何用深度学习消除背景

在机器学习方兴未艾的过去几年里,我一直想要亲自开发具有实用价值且基于机器学习的产品。然后几个月前,在我学习了由 Fast.AI 所提供的深度学习课程之后,我意识...

3524
来自专栏数值分析与有限元编程

幂迭代法求矩阵特征值的Fortran程序

昨天所发布的迭代法称为正迭代法,用于求矩阵的主特征值,也就是指矩阵的所有特征值中最大的一个。其算法如下: ? 满足精度要求后停止迭代,xj是特征向量,λj是特征...

4295

扫码关注云+社区