百度大脑获10项CVPR 2019竞赛冠军

一年一度的计算机视觉及模式识别领域顶级国际学术会议之一CVPR2019于日前落下帷幕,百度大脑在CVPR相关竞赛任务中获得10项冠军,全面涵盖视觉领域下的视频理解与分析、目标检测、图像超分辨、智能城市车辆识别、人体&人脸检测等众多热门子领域。其中,百度研究院团队获4项冠军、百度视觉团队获6项冠军,共有17篇论文被大会收录。

一、视频理解与分析领域

ActivityNet是目前视频理解领域影响力最大的赛事之一,与CVPR 2019会议同期举办。在本次竞赛中,百度获得视频动作提名、视频动作检测两项任务的冠军,并在新增任务EPIC-Kitchens动作识别挑战赛中获两项测试集冠军(Seen kitchens和Unseen kitchens)。这是百度视觉团队连续三年在ActivityNet相关赛事中斩获冠军。

在视频动作提名、视频动作检测两项任务中,百度分别针对动作分类、动作边界不准确等问题提出C-TCN、BMN等模型,在THUMOS和ActivityNet两个公开数据集的指标均达到世界领先,相关代码将于6月底采用飞桨(PaddlePaddle)开源。

今年ActivityNet竞赛的新增任务EPIC-Kitchens动作识别挑战赛,聚焦第一人称视频理解,对可穿戴设备、智能家居、人机交互等方面的应用起着关键作用,吸引了Facebook AI、牛津大学、INRIA(法国国家信息与自动化研究所)等66支队伍参与。百度在该任务中的Seenkitchens和Unseen kitchens 两项测试集上以很大优势获得第一,并受邀在CVPR 2019 EPIC和ActivityNet Workshop上作报告。

针对第一人称视频小物体多、模糊遮挡严重等难点,百度使用2D检测框架和3D卷积网络结合的方法进行视频特征提取。同时,百度提出门控特征融合模块,通过增强视频片段特征与上下文物体特征之间的非线性交互,使得输出表征具有更好的分辨能力。

二、人体检测领域

在人体检测领域,百度拿下“三连冠”。在Look Into Person国际竞赛(以下简称LIP)三项人体精细化解析竞赛单元(Track1:Single-Person Human Parsing,Track3:Mult-Person Human Parsing,Track4:Video Multi-Person Parsing)中,百度均获得第一名。LIP国际竞赛专注于人体的精细语义理解任务,包括单人的人体解析任务、单人的人体姿态估计任务、多人的人体解析任务、视频多人人体解析任务。此次比赛的主题为复杂场景中人体的视觉理解,是计算机视觉领域的基本问题之一,对视频监控、人机交互、自动驾驶、虚拟现实等场景具有重要意义。

比赛中,单人人体解析竞赛单元的任务是输出单人图片语义分割信息(如上肢和下肢等)。针对人体关键目标区域较小、难以检测的问题,百度对以往基于多尺度全卷积神经网络的模型(例如Pyramid Scene Parsing Network, DeepLab v3+等)进行改进,使每个卷积核能对图片的细节进行感知,同时输出精度更高的feature map。此外,百度还进行了图片增强、数据扩张,在训练中动态调整输入图片尺度,使用mIOU loss损失函数等,使得模型能够更精确地捕捉肢体的细节、以及被遮盖的部分。最终,百度根据各个不同模型的效果进行融合,取得65.18%的mIoU,获得单人人体解析的冠军,超过上届冠军7.2%。

单人人体解析结果展示

多人人体解析和视频人体解析方面,需要解决的是对图片中以及视频中的多人语义信息分割问题。该竞赛数据集与单人人体解析任务相比,更关注多人遮挡等难题,进一步增加比赛难度。在比赛中,百度针对多人遮挡严重、姿态和视角多样性等特点,优化改进了结合多人检测和单人人体解析的top-down框架,通过最终改进的模型在多人人体解析和视频多人人体解析竞赛单元中均取得第一的成绩,成绩大幅领先第二名。

三、人脸活体检测领域

在CVPR人脸活体检测比赛上,百度在300多个队伍中获得第一的好成绩。CVPR-19-Face Anti-spoofing Attack Detection Challenge是CVPR会议历史上首次举办人脸活体检测比赛,发布了目前世界上最大的跨模态人脸活体检测数据集CASIA-SURF,包含1000人次的21000段三模态(RGB、IR、Depth)人脸视频。

作为该项比赛的冠军,百度在活体检测方向已积累百万级的攻击图像数据,持续研发迭代了多模态(Depth、IR、RGB)、双端(云端、嵌入式)的活体检测模型。这些模型对内支持多项核心业务,对外服务众多标杆客户,可满足不同的场景应用需求。

四、目标检测领域

目标检测是计算机视觉和模式识别领域的基础问题之一,百度在该领域获得“Objects365 物体检测”国际竞赛Full Track冠军。Full Track主要用于探索目标检测系统的性能上限,Objects365作为一个全新的数据集,旨在促进对自然场景不同对象的检测研究。

Objects365在638K张图像上标注了365个对象类,训练集中共有超过1000万个边界框。因此,这些标注涵盖了发生在各种场景类别中的常见对象。参赛者可以使用发布的60万张图片组成的训练集训练一个目标检测模型,对图片中的存在于Objects365定义的365个类中的目标输出包围框、类别和分数。在3万张图片组成的验证集上做算法性能验证,最终在由10万张图片组成的测试集中完成挑战。据悉,百度采用了基于飞桨研发的检测训练框架,并且训练框架及模型即将开源。

同时,百度在NTIRE竞赛中从400余支参赛队伍脱颖而出,获得图像超分辨项目冠军,这是百度首次参加NTIRE(计算机视觉low-level vision领域中影响力最大的竞赛)。本次比赛采用了全新拍摄的真实数据集(RealSR),百度视觉团队在PSNR和SSIM两项指标上均名列第一,同时提出极具创新性的CDSR超分模型,通过级联的方法逐步将图像从模糊变清晰。相关技术采用飞桨部署于百度App,而且已经应用于Feed图片查看的功能。

五、智能城市车辆识别领域

本届AI-city公开赛包含城市范围多摄像头车辆跟踪、城市范围多摄像头车辆重识别和交通异常检测三个子任务。在城市范围多摄像头车辆重识别任务中,百度得益于飞桨(PaddlePaddle)框架助力,并凭借在车辆垂类领域检测、跟踪、属性分析、关键点定位等技术能力的长期积累,实现mAP Score指标达到0.855,获得该任务的冠军,超越第二名6.4个点。

城市范围多摄像头车辆重识别是智能车辆分析能力的核心基础技术之一。智能车辆分析能力为百度在智能城市领域积极探索提供强有力的支持,尤其是在城市安防、智能交通等重要的AI2B场景下都离不开对车辆结构化分析的需求。目前,百度已经开放车辆检测、车辆属性/车型识别、车流统计和智能定损等多项相关服务。未来,百度将继续推进车辆垂类技术能力的建设及智能车辆分析技术迭代,为不同领域赋能。

据悉,百度大脑正在对外不断开放这些AI技术,目前已对外开放视觉、语音、自然语言处理等170多项领先的AI能力,为广大开发者提供AI技术研发支持,赋能各行业。

来源:百度。

-------------------------------------

分享才是真的美!

本文内容均来自互联网,版权属于原作者。如不慎侵害您的相关权益,请联系我们,我们将尽快删除。

*点击屏幕右上角按钮,;

*可以通过通讯录右上角图标,,搜索“机器人技术与应用”;

*或输入:robotmagazine

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190627A0H7P900?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券