DGX-1 助力清华海峡研究院加速图像识别

文章来源：企鹅号 - AMAX高性能计算解决方案

项目背景

清华海峡研究院于2015年成立，依托两岸清华大学和厦门三方人才、技术优势，连接和整合海峡两岸科技、教育和文化资源，以两岸经济社会发展需求为导向，在信息技术、先进制造业、新能源与新材料、金融等若干学科领域开展研究与交流。

图像识别，是指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对像的技术。图像识别是人工智能的一个重要领域。图像识别技术是立体视觉、运动分析、数据融合等实用技术的基础，在导航、地图与地形配准、自然资源分析、天气预报、环境监测、生理病变研究等许多领域重要的应用价值。

核心需求

图像识别的过程包括图像预处理、图像分割、特征提取和判断匹配。图像识别的难点，具体表现在图像视点的变化很多，对着同样一个物体拍照的时候，因视点不同，得到的图像外观是不一样的。难点还表现在尺度问题，物体在图像中近大远小，这给图像识别带来一定的难度。光影的变化一向是计算机视觉特别关心的一个问题，这也是图像识别的第三个难点。第四个难点是背景复杂。第五个难点是遮挡，遮挡是计算机视觉特别关心的一个难点，第六个难点是变形，物体在运动中会产生变形，在不同情形下，同一物体的图像表现会非常不一样。上述难点导致图像识别时数据量庞大，计算复杂。数据库大，大规模训练多，识别的准确度才可能高，如何加速计算，提升训练效果就成为图像识别研究人员的关注焦点。

解决方案

随着2012年Alex发布CUDA-Convnet框架，使得依托采用了CUDA技术的高性能GPU平台来研究大型深度神经网络获得广泛认同。针对人形图像分割问题，研究中心利用该框架设计了一种多通道深层次的分割网络，在人形分割精度上达到了88%准确率，速度上也达到令人满意的效果。该分割网络在NVIDIA平台实现，该平台采用了2块GPU卡。相对于传统CPU解决方案，利用GPU的人形分割网络解决方案优势明显。

GPU方案可以利用单台服务器实现数十台CPU服务器集群的并行计算性能，而训练单个人形分割网络消耗时间则从数周降至6天，大大加快了科研进度；

利用GPU卡组建一个运算平台仅需要单台CPU服务器成本的五分之一，有效地节省了经费开支；

实现的分割网络支持两块及以上GPU组建双通道卷积网络，这为大规模网络的设计提供了良好的扩展性。与此同时，研究中心采用的计算平台最高可支持4块GPU卡，可视需求随时添加，方便灵活；

采用NVIDIA Tesla GPU卡部署的服务器投入使用近年以来，运行稳定，性能可靠，易于维护，已经成为研究中心不可或缺的重要计算资源。

解决方案

研究表明，在图像识别方面，深度学习有着巨大的优势。深度学习需要大量的数据，现有的图像数据不能满足需求，结合图像数据的特点，通过平移、水平翻转、旋转、缩放等数据扰动方式可以产生更多的有效数据，普遍提高识别模型的推广能力。

（1）从统计，计算的角度看，深度学习特别适合处理大数据

a、用较为复杂的模型降低模型偏差

b、用大数据提升统计估计的准确度

c、用可扩展的梯度下降算法求解大规模优化问题

这个大数据是除了数量上的大，还有更重要的是维度的大，很多算法本身是无法处理高纬度数据的，例如Kernel学习机相关的算法，虽然理论上是先将数据向高维空间映射，然后在高维空间进行线性的求解，实际上在处理的时候还是回到原空间处理。传统的BP算法针对高维的数据也是效果不佳。

深度学习（CNN）关注了全局特征，更是利用了图像识别领域非常重要的局部特征，应该是将局部特征抽取的算法融入到了神经网络中。图像本身的局部数据存在关联性，而这种局部关联性的特征是其他算法无法提取的。深度学习很重要的是对全局和局部特征的综合把握

（2）深度学习不是一个黑箱系统。它像概率模型一样，提供一套丰富的、基于联接主义的建模语言。利用这套语言系统，我们可以表达数据内在的丰富关系和结构。比如用卷积处理图像中的二维空间结构，用递归神经网络（Recurrent Neural Network）处理自然语言等数据中的时序结构

（3）深度学习几乎是唯一的端到端的学习系统，它直接作用于原始数据，自动逐层进行特征学习，整个过程直接优化目标函数。

为此，AMAX 向清华海峡研究院推荐了专门针对深度学习研究而设计的超级计算机DGX-1，该系统可获得更快的训练速度、更大的模型以及更精确的结果。这是世界上首台专为深度学习和人工智能加速分析而打造的系统，性能相当于 250 台传统服务器。它实现了与硬件、深度学习软件和开发工具的全面集成，可运行热门的加速分析应用程序。也就是说，您可以立即缩短数据处理时间、呈现更多数据、加速深度学习框架并设计更加复杂的神经网络。

DGX-1突出特性

全球首款针对深度学习而打造的超级计算机

全球首款搭载NVIDIA Tesla P100 GPU 加速器的机型

配置28672颗CUDA核心、8片Tesla P100卡

CPU：双路20核Intel Xeon E5-2698 v4 2.2 GHz

精度值：170/3（GPU FP16/CPU FP32）

NVIDIA NVLink 连接，实现高速大带宽直连通讯的快速互联机制

提供完整的系统支持和NVIDIA 云管理门户的访问权

应用管理集成化，提供状态监控

提高产能，缩短宕机时间

采用突破性的技术，更具竞争优势

总结

客户表示，DGX-1系统集成支持NVLink的最新版NCCL，可提升多GPU扩展性。使用数据并行SGD时，支持NVLink的NCCL可将ResNet-50训练性能提升2倍，大幅改进图像阅读器管道，允许AlexNet [Krizhevsky etal.2012]以超过12,000张图片/秒的速度进行训练，计算速度明显加快，立即就缩短了数据处理的时间，图像识别速度和准确度飞速提升。

发表于: 2018-01-242018-01-24 19:03:03
原文链接：http://kuaibao.qq.com/s/20180124G0SCWI00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

DGX-1 助力清华海峡研究院加速图像识别

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐