千锤百炼:超算操作系统曙光Gridview

信息时代科技快速发展,高性能计算正在慢慢渗入人类科学和生活的各个角落。作为当代科技竞争的战略制高点,高性能计算也是一个国家综合实力的体现之一。中科曙光是中国最早也是最大的专注于高性能计算领军企业,已经在高性能领域取得一系列突破性成果并切实服务了中国绝大多数高性能计算的用户。

Gridview高性能计算操作系统是曙光自主研发的,针对HPC领域大规模计算和集群管理、集群监控的高性能计算平台,可同时支撑公有云、私有云。近20年来,Gridview经过数次版本更新,产品设计具备国际先进理念,特别针对用户的使用场景和习惯重新设计,兼具功能性和易用性。Gridview主要功能分为三个部分:作业提交与调度、监控管理、工业云,以及其他一些与HPC集群和应用相关的功能需求等。

作业提交与调度

Gridview自主可控,支持异构的调度核心,提供统一的调度管理。调度策略灵活:支持GPU、“公平共享”、“动态作业优先级”、“节点独占”等;容错处理稳定可靠:作业断点续算、计算节点状态自检、残留进程自动查杀、作业异常处理自定义;应用Portal:提供应用的部署、发布与订阅,ABAQUS、ANSYS、CFX、Fluent、LS-DYNA等几十种预定义Portal,简化作业提交,提供定义的开发规范和模板,支持定制化和自定义开发。

监控管理

对数据中心IT设备进行监控、管理,展现集群实时运行状态,动态显示监控信息,永久保存历史告警信息,实时提供告警及统计分析,秒级采集响应;可提供各种监控指标的自定义功能,以热图的方式展现集群中节点的性能指标,检测性能瓶颈和热点,管理、监控、作业、云桌面一切尽在掌握之中。

工业云平台

Gridview统一门户使仿真计算+工业设计一体化;异构平台用户登录统一用户;三维可视化支持DCV,NICE,VGL等多种解决方案;数据集中管理存储,了无后顾之忧,安全可靠。

随着网络安全越来越受到用户的重视,Gridview新增三员分离功能根据需求将系统管理员划分为三个角色,实现理员权限分离,并提供三种管理员不同的管理角色分工:

系统管理员:配置系统运行参数;账户和账户组的创建、删除、修改、查询和导入。

安全保密管理员:账户授权与管理;查看系统管理员和安全审计员及用户操作日志,监控操作行为。

安全审计员:查看系统管理员和安全保密管理员及用户操作日志,对系统管理员和安全保密管理员的操作行为进行审计分析。

Gridview分为标准版、数据中心版、HPC版、工业云四个版本,用户可根据自己需求选择对应的版本,提供不同的技术支持。例如:

数据中心用户:Gridview提供全方位监控、告警、运维、管理、统计分析。

HPC用户:在数据中心版基础上+调度+集群管理,Portal,Clussoft,Clusconf。

设计仿真用户:在HPC版基础上+虚拟桌面(Cirtix,NICE,DCV)前处理、求解、后处理、一体化解决方案。

气象用户:多集群调度,支持耦合模式、作业拆分、作业步(记账按小时精分)常见气象应用深度优化。

Gridview适配数据中心、超算中心、公有云计算中心等,主要涉及领域包括CAE仿真、动漫渲染、物理化学、石油勘探、生命科学、气象环境,深度学习等,在制造业、石油、气象、航天、科研等国家经济支撑产业中发挥着重要作用。

曙光Gridview自初版以来不断推陈出新,相比市场同类产品功能更为完善,满足用户的多样化需求,相信未来Gridview将会带给用户在其领域更大的助力。2018年,Gridview成功服务中国气象局高性能计算系统,实现了国内首个8P以上核心业务系统的调度和服务工作,并完成了一系列精细化的定制工作。气象应用作为HPC应用的珠穆朗玛峰,此次Gridview的成功服务,既是对Gridview品质的肯定也是对Gridview功能的全面性和可靠性的升华,未来必然可为更多的用户提供更加的优质的HPC系统服务。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181029B1MPV100?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券