登录后再学习,可使用学习中心、个人中心等更完善的课程服务。立即登录>
关闭

英特尔高性能计算 HPC 在腾讯云上的实践

  • 2 课时
  • 520 学过
  • 8 分
高性能计算GPU 云服务器

课程概述

本次课程将介绍如何利用腾讯云环境实践HPC,以及如何在这个集群中运行并行程序。包含两个实例:HPC主控节点、HPC计算节点。 两种实例需要配合使用,包含了基本的HPC集群软件,可以用于练习HPC集群系统的使用、管理以及软件安装部署,同时也包含了全套的MPI并行程序的开发环境,如GCC、MPICH、数学库等等,可以用于学习并行编程,并进行并行软件的开发和调试。

【课程大纲】

1.在腾讯云上构建实验集群环境

2.在集群环境中运行并行程序

适用人群

  • 对云计算感兴趣的个人/企业

机构简介

英特尔(Intel Corporation)

英特尔是半导体行业和计算创新领域的全球领先厂商,以智能互联技术奠定全球创新基石。英特尔创始于1968年,拥有50余年推动技术创新和耕耘产业生态的成功经验。如今,英特尔正转型为一家以数据为中心的公司。英特尔的战略愿景聚焦于三个方面:一是致力于生产世界上最好的半导体芯片;二是引领人工智能与“自能”革命;三是做全球领先的端到端技术平台提供者。英特尔正与合作伙伴一起,共推人工智能、自动驾驶、 5G及物联网等领域的技术创新与应用突破,驱动智能互联世界,从而解决人类面临的重大挑战。 英特尔于1985年进入中国,是在华高科技领域最大的外国投资企业之一,协议总投入约130亿美元。中国是英特尔全球战略之重点,英特尔在中国拥有美国总部之外最为全面的业务部署,覆盖了前沿研究、产品技术开发、精尖制造、产业生态合作、市场营销、客户服务、风险投资和企业社会责任等。英特尔中国现有员工约9,500人。扎根中国三十四年,英特尔见证并深度参与了中国的改革开放,从浦东开发、西部开发到振兴东北等,英特尔一直跟随改革开放的步伐,积极带动区域经济发展,为高端制造持续注入新动力。 2014年12月,英特尔宣布在未来15年将为成都工厂投资16亿美元,首次引入英特尔最先进的高端测试技术( ATT),使成都工厂在原有的芯片封装与测试业务之外进一步升级为英特尔在美国境外唯一的ATT技术工厂;该技术已于2016年11月18日正式投产。 2015年10月,英特尔宣布投资55亿美元,将英特尔大连工厂升级为非易失性存储技术制造基地;该项目已经于2016年7月正式投产, 2017年发布了两款全新的基于3D NAND的数据中心级固态盘;其二期项目已经在2018年9月投产英特尔最先进的96层3D NAND产品。英特尔中国研究院是英特尔全球五大创新中枢之一,而英特尔亚太研发中心已发展成为英特尔在亚洲最大的综合性研发基地之一。 英特尔中国积极履行企业社会责任,涵盖了人才培养、员工关爱、多元化和包容、环境可持续、供应链建设、志愿服务等领域。英特尔连续20多年被教育部评为最佳合作伙伴。我们持续支持英特尔杯嵌入式大赛、英特尔杯软件创新大赛和人工智能人才培养等项目,开展丰富多彩的校园活动,每年都有上万名学生的直接参与,受益青少年数以十万计。英特尔中国员工在2018年参与志愿活动人数达8,636人,贡献志愿服务时间超过12万小时,参与比例为69%; 10年来累计志愿服务时间超过72 万小时。我们把公司运营与环境可持续发展协调并进,积极减少碳足迹;还和政府、产业链以及公益组织深入合作,共同推动绿色可持续发展。全球独立机构声望研究院发布的“中国最具声望的公司”( RepTrak? 100) 2018年百强排行榜中,英特尔荣登榜首。

讲义

1. 在腾讯云上构建实验集群环境

1.1 建立集群

  • 申请5台云主机实例
  • 收集各个节点实例的vCPU核心数量以及内网IP地址

1.2 设置作业调度系统

  1. 在管理节点sms上修改/etc/hosts文件,加入管理节点和计算节点的内网地址和主机名
  2. 在管理节点sms上修改/etc/slurm/slurm.conf文件
  3. 同步/etc/hosts文件到计算节点
  4. 同步/etc/munge/munge.key文件到计算节点
  5. 同步/etc/slurm/slurm.conf文件到计算节点
  6. 在SMS上设置启动SLURM服务
  7. 在计算节点上设置启动SLURM服务
  8. 重启动所有节点
  9. 重启动后检查SLURM是否工作正常
  10. 如果节点状态是down而不是idle,可以使用命令强制设置

1.3 增加用户账号

  1. 在管理节点上建立新用户账号
  2. 为新用户账号设置密码
  3. 为新用户账号配置免密登录
  4. 将新用户账号同步到计算节点上

2. 在集群环境中运行程序

2.1 使用MPIRUN命令直接运行程序

  1. 使用test用户登录到管理节点sms
  2. 编译第一个MPI程序hello
  3. 使用MPIRUN命令在指定计算节点上运行hello

2.2 使用作业调度系统运行程序

当需要在集群系统中同时运作多个作业时,会使用作业调度系统进行作业的调度,以更高效的利用系统的计算资源

2.3 检查作业的运行状态

  1. 提交另一个linpack.job作业
  2. 检查节点占用情况
  3. 检查作业状态

课程评价(0)

感谢你参加本课程,请你作出评价:
0/300

以下选自学员评价

暂无精选评价