首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

利用 CUDA实现深层人形图像分割网络

项目背景

人形分割是场景分割的一个重要部分,也是场景理解要克服的关键问题之一。在场景理解中,人体可能是最重要的目标,这是因为大多数场景理解的任务都与人体相关或者需要配合人体。然而,在过去的几十年中关于人形分割的研究进展缓慢,无法达到实际应用需求的精确度。

中科院的智能感知与计算研究中心针对基于深度学习技术的高精度人形分割进行了深入探索。研究中心提出的深度人形图像分割网络在2013年中国云—移动互联网人形图像分割大赛中一举获得冠军,同时由于其采用了深度学习技术被授予大赛特别奖,和百度悬赏的20万奖金,引起了业界的关注。该技术采用了深度卷积神经网络,其利用CUDA实现的GPU加速版本可以达到几十倍于CPU版本的分割速度。目前该项技术已经获得三星等公司的支持进行产品化研发。

核心需求

速度和精度是评价人形分割算法的两个主要性能指标,也是该方法能否实现大规模应用的决定性因素。因此,研究更大规模(更深层次)的分割网络,以及设计更快速度的分割模型成为了人形分割的主要研究方向。

更大规模的分割网络需要大量的并行计算单元和计算核心的支持,传统的CPU解决方案已经无法满足需求。业界传统的解决方案通常是采用数十台甚至上百台CPU服务器组建集群以完成高性能计算的需求,但是其管理难度大,成本高昂,维护程序复杂,显现出诸多弊端。基于CUDA的GPU并行计算平台的出现则使得该问题迎刃而解。

解决方案

随着2012年Alex发布CUDA-Convnet框架,使得依托采用了CUDA技术的高性能GPU平台来研究大型深度神经网络获得广泛认同。针对人形图像分割问题,研究中心利用该框架设计了一种多通道深层次的分割网络,在人形分割精度上达到了88%准确率,速度上也达到令人满意的效果。该分割网络在NVIDIA平台实现,该平台采用了2块GPU卡。相对于传统CPU解决方案,利用GPU的人形分割网络解决方案优势明显。

GPU方案可以利用单台服务器实现数十台CPU服务器集群的并行计算性能,而训练单个人形分割网络消耗时间则从数周降至6天,大大加快了科研进度;

利用GPU卡组建一个运算平台仅需要单台CPU服务器成本的五分之一,有效地节省了经费开支;

实现的分割网络支持两块及以上GPU组建双通道卷积网络,这为大规模网络的设计提供了良好的扩展性。与此同时,研究中心采用的计算平台最高可支持4块GPU卡,可视需求随时添加,方便灵活;

采用NVIDIA Tesla GPU卡部署的服务器投入使用近年以来,运行稳定,性能可靠,易于维护,已经成为研究中心不可或缺的重要计算资源。

解决方案

研究中心利用GPU平台研发的高精度人形图像分割网络在百度分割数据库上目前已经达到遥遥领先的88%准确率,取得了巨大的成功,获得了学术界和工业界的广泛关注。三星等公司与研究中心合作以开发更精确更快速的人形分割算法。

在机器学习和计算机视觉领域,越来越多的研究团队正在探索更大更深的神经网络。与此同时,更高性能和更大显存的GPU科研计算平台也正在不断推出。目前,研究中心最新的GPU平台具有4块NVIDIA Tesla GPU显卡,总显存达到48GB,搭配CUDA-convnet及Caffe框架,可以实现当前足够深度神经网络的测试需求。为了进一步加速人形图像分割网络的速度,研究中心正利用该平台研发基于CUDA的全图卷积人形分割算法,该算法有望实现毫秒级的高精度人形图像分割。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180119G0O1AI00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券