信息化建设的“寒江独钓”————高性能计算系统
二院二部负责二院高性能计算系统的总体设计、实施以及后期的自动化运维,其中二部的信息君就是高性能总体设计和运维的小能手。让我们看看机智的信息君都能解决哪些问题吧?
小明
问:信息君,高性能计算系统在型号研制中有怎样的应用意义?
信息君
答:高性能计算系统以其架构优势可使具有并行解法的计算问题快速求解,如流体力学,结构强度计算。目前高性能计算系统中部分作业执行需数天,如果采用普通的服务器,获得解需数月,高性能计算系统助力缩短型号研制周期。
小明
问:信息君,高性能计算系统对型号项目只是有加速的作用,其应用意义是否也有限?
信息君
答:量变引发质变,从型号讲,德国在二战期间也在研究原子弹,如其率先研制成功,人类历史进程将不堪设想。从经济角度出发,高性能计算在航天、航空等行业的发展与应用能辐射、带动一系列产业,如自主可控服务器、国产存储。刺激经济发展,对于决胜全面建成小康社会裨益良多。
小明
问:信息君,作为一个设计人员,该如何使设计工作和高性能系统何结合呢?
信息君
答:高性能计算系统需要和专业软件集成,集成后设计师可调用计算资源。各专业软件能否与高性能计算系统集成需设计师关注本专业领域的发展,当有集成需求,可联系二部高性能团队进行集成测试。
小明
问:信息君,为啥是“寒江独钓”呢?
信息君
答:一是需要沉下心,专注技术,高性能系统涉及的很多复杂问题不是某一类技术就能解决的,问题可能涉及Linux、并行文件系统、高速计算网络,软件集成调试。另外一个就是由于集群一般工作在冷通道内,高性能系统的实施和运维真的非常冷。。。
小明
问:信息君,高性能集群运维和其他系统运维区别
信息君
答:区别还是很大的,对于上千台的设备,一台设备状态确认2分钟,24小时都不够用,集群计算是并行的,运维设计也需要是并行的,很多运维工作都是写脚本,感觉管理员都快“有丝分裂”处理问题了~
总结
在航天领域,信息化在型号研制与企业经营管理中正扮演越来越重要的角色,其中高性能计算系统以其技术的广度和深度,需要工作团队以“寒江独钓”的精神,做好技术积累,从而在总体设计、系统实施、自动化运维等各个阶段确保建设成果和应用效果。
目前,航天领域的高性能计算系统从用户应用视角有两种模式,第一种是图形化模式,第二种是批作业模式,图形化模式下,用户申请得到图形软件交付,用于前处理,批作业模式是用户直接提交计算输入,获得输出。
二院正在开展新一期高性能计算中心建设,采用国产化服务器。单台刀片服务器性能较上期提高8倍以上,以应对目前系统排队多、求解时间较长的情况。新增胖计算节点和GPU加速节点满足电磁等专业需求。
经过新的一期高性能建设,物理设备显著增加,系统逻辑拓扑更加复杂。运维难度增加。二部高性能团队面对挑战也将团结一致,以自动化运维为抓手,持续深耕高性能专业建设,在二院信息化两总及机关的坚强领导下,保障高性能计算系统的稳定、可靠,为型号工作保驾护航!
编辑:张迎曦
领取专属 10元无门槛券
私享最新 技术干货