腾讯 AI Lab 计算机视觉中心人脸 & OCR团队近期成果介绍（3）

原创

周景超

修改于 2017-11-29 09:40:11

1.8K0

修改于 2017-11-29 09:40:11

文章被收录于专栏：周景超的专栏

在上一期中介绍了我们团队部分已公开的国际领先的研究成果，近期我们有些新的成果和大家进一步分享。

1 人脸进展

人脸是最重要的视觉信息之一。以貌识人、以貌取人是人的本性，也是最自然、最常用的身份确认和交互方式之一。互联网和移动互联网上每天上传和传播的天文数字级别的照片中有很大一部分都是和人脸相关的（比如国际知名互联网公司Facebook每天都有亿级以上的海量人脸照片和视频上传），因此人脸检测与识别技术在学术界和工业界都备受关注，是各种国际前沿视觉技术的重要检验场之一。

在上一期中已介绍了我们团队在人脸检测与人脸识别上所取得的世界领先的原创性成果，迄今为止，我们团队在人脸检测的国际最权威评测平台WIDER FACE的所有三个测试子集、人脸识别的国际最权威评测平台Megaface Challenge 2（不同于Megaface Challenge 1，Megaface Challenge 2严格限定参赛者使用官方提供的固定的训练数据以公平地对比不同人脸算法的性能）的所有测试任务中都取得世界第一的性能。众所周知，原创性技术和落地应用这二者是密切相关、相辅相成的，一方面，原创性技术需要在落地应用场景中检验其有效性并帮助解决工业界的实际需求。另一方面，工业界的很多实际需求是之前长期存在但是在技术层面长期解决不了的，对这些技术难题如果没有真正创新性的技术突破也就难以真正解决。

就应用进展而言，我们团队自主研发的人脸技术已经接入公司的若干重要场景下的应用业务。其中一个是TEG信安业务场景，目的是精准识别海量上传图像中的敏感人物，针对带有敏感人物的图片或视频进行拦截。该项目的难点在于待识别的敏感人物会以各种形式出现在图片当中，比如漫画和处理过的照片都是比较难的情况。我们采用自主研发的人脸识别模型对该问题进行了建模，同时利用TEG信安提供的业务数据对业务场景进行了优化。

我们的人脸技术接入的另一个重要业务是MIG互联网+合作事业部政企项目组的腾讯慧眼项目。腾讯慧眼项目主要针对政务和生活场景，通过人脸验证完成自动化的身份鉴别，方便百姓远程办事，让数据多跑路，百姓少跑腿，为百姓带来更多“刷脸”办政务的创新场景。在政务场景下的人证比对中，我们的人脸技术在内测的业务数据上已达到甚至超过了知名人脸公司依图科技（与商汤科技、旷世科技齐名的人脸巨头公司）的精度。目前该项目正在进展中，并将在近期开放至腾讯慧眼项目的开放平台上。

此外，我们的人脸技术还广泛应用在了内部团队其他视觉相关项目中。例如在我们的图像数据分类项目中，人脸检测技术用于辅助半自动的标注任务。在AI Lab自研的AI有嘻哈项目中，人脸技术也将被用于识别图片中的名人脸，以便进一步的提高图片配文的质量。

2 OCR进展

2.1 ICDAR竞赛

在上一期中介绍了我们团队在OCR的ICDAR Robust Reading竞赛中所取得的佳绩。该竞赛有两个很重要的竞争很激烈的场景：互联网图片场景图像（Born-Digital Images）和对焦自然场景文本图像（Focused Scene Text Images）。我们在这两个场景的文本定位任务（Task 1: Text Localization）和单词识别任务（Task 3: Word Recognition），一共四个任务上都取得第一名的佳绩。一般对每个场景的Robust Reading竞赛，传统上分成四个任务：文本定位、文本分割（Text Segmentation）、单词识别、和端到端识别（End to End）。在传统OCR时代，识别图片中的文本必然经过检测、分割和识别三个阶段。在深度学习时代，近年来由于RNN的出现，对于检测到的单词可以直接训练网络做识别，分割这个任务已没有太大意义，成为鸡肋，也没有团队参加这项任务，ICDAR 2017年公布的新的竞赛数据集，如：COCO-Text，直接取消了这项任务。

近期我们向OCR的ICDAR Robust Reading竞赛的最终目标（端到端识别，即采用端到端的方法识别图片中的文本）发起冲击，并取得突破，在上述两大重要场景的端到端识别上也都获得第一名。值得一提的是，迄今为止我们在这OCR的两大重要场景上都实现了大满贯，超过了该领域的众多强劲对手（百度、阿里、商汤、旷世科技、和各大高校），囊括了所有的6项冠军（忽略已经被淘汰的分割任务）。

就技术手段而言，我们基于在该领域的深厚技术底蕴（人脸与OCR的很多底层技术是相通的）以及在参加文本定位和单词识别任务中所积累的国际领先技术，进一步采用了级联训练（Cascade Training）的方法，把文本定位网络和单词识别网络集成起来，使得结果可以正向流动、反馈可以逆向传播。凭借着这种方法，我们在互联网图片和对焦自然场景文本图片这两个重要场景的端到端任务上都获得第一名的佳绩，截图如下所示。

图2. 互联网图片端到端任务上的排名

互联网图片端到端任务部分结果如下图所示，详细结果可在网站上查询：http://rrc.cvc.uab.es/?ch=1&com=evaluation&view=method_samples&task=4&m=31774>v=1

图3. 互联网图片端到端任务的部分结果

图4. 对焦自然场景文本图片端到端任务上的排名

对焦自然场景文本图像端到端任务部分结果如下图所示，详细结果可在网站上查询：http://rrc.cvc.uab.es/?ch=2&com=evaluation&view=method_samples&task=4&m=31791>v=1

图5. 对焦自然场景文本图片端到端任务的部分结果

3 小结

人脸&OCR团队一直以来按照“夯实基础，做既有创新性又能落地应用的国际前沿工作”这个研究思路开展和推进工作，迄今为止我们不仅在人脸与OCR的多项国际权威榜单名列榜首，而且我们的技术在公司的多个重要的场景中得到了很好的应用。近期，我们团队参与的“AI在腾讯信息安全中的应用”项目获得了2017年下半年技术突破奖银奖，截图如下。