上海大学机器学习平台简介

【HPCC】

上海大学机器学习平台简介

上海大学机器学习平台是上海大学计算机学院设计建设的多加速器异构集群,采用了自主开发的管理系统。该平台主要用于机器学习、深度学习的科研和教学。

硬件环境

硬件包括:2个登录/管理节点、1套KNL计算节点、2个FPGA节点、10个双GPU节点、1台四GPU的DGX-station、4个I/O节点;一套244T光纤存储阵列;1套千兆管理网络,1套100G IB高速网络和1套100G OPA高速网络。

平台主要节点硬件配置表

机器学习平台

软件环境

该平台采用镜像容器技术进行管理和使用,用户可自主下载通用的镜像、构建新的镜像、或使用平台的镜像库中镜像。

基本软件环境如下:

操作系统:Centos7.5

编译开发:CUDA 10.0,GNU编译器教育版等

基本镜像库:python, torch, mxnet, tensorflow, opencv, caffe, keras等

使用方法:web方式提交、管理和监控任务

管理系统:基于k8s的高效集群管理系统一套,基于Zabbix的环境监控软件一套

设备监控

服务情况

2018年6月,机器学习平台通过验收并开放使用。目前,有21个国家、省市级项目正在使用该平台,经费总额为1944万。平台月平均运行任务数(容器数)20500个,硬件平均使用率达到70%。

上海大学高效能计算中心为平台开发了一套便捷的任务提交管理系统,方便用户进行任务提交、管理和监控;提供了高速IB和OPA计算网络、本地SSD存储和海量GPFS存储,满足用户计算及存储的需求;提供了大量开源的机器学习和高性能计算的镜像,并支持用户自主构建自有镜像,方便用户快速开展计算实验。

高效能计算中心平台资源对外开放共享,提供计算资源和技术支持,欢迎校内外用户来中心进行交流、合作研究。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190113F110DZ00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励