首页
学习
活动
专区
圈层
工具
发布
首页标签高性能计算集群

#高性能计算集群

云端独享、安全隔离的云上超算集群

腾讯云高性能计算集群HCC与AI加速套件:降低40%通信开销与50% TCO成本

IT资讯研究所

腾讯科技 | 研究员 (已认证)

腾讯云针对千亿级AI大模型训练中的网络瓶颈、GPU利用率低及运维成本高等痛点,推出高性能计算集群HCC、星脉网络、AI加速套件TACO Kit与qGPU容器虚拟...

13010

腾讯云高性能计算集群(HCC):基于软硬融合架构突破大规模AI训练算力与网络瓶颈

gawain2048

腾讯科技(深圳)有限公司 | 市场研究 (已认证)

本文介绍了腾讯云高性能计算集群(HCC)通过软硬协同架构解决大规模AI训练中算力闲置与网络延迟瓶颈的创新方案。该方案整合了异构GPU算力底座、星脉高性能网络、T...

14910

毅硕HPC | OpenPBS构建高效稳定的HPC作业调度环境

INSVAST

当您的研发团队拥有数百个计算节点,却因为缺乏合理的资源分配导致任务排队混乱、高优先级作业被阻塞,甚至因为节点过载导致系统宕机——这不仅是硬件资源的浪费,更是科研...

40310

毅硕HPC | InfiniBand网络在HPC集群中的核心应用

INSVAST

网络是高性能计算集群的“神经系统”——它决定了计算资源的协同效率、应用的可扩展性,以及最终的科学发现速度。在众多网络技术中,InfiniBand(IB)凭借其超...

1.1K10

毅硕HPC | 在HPC集群上优雅地使用conda

INSVAST

在高性能计算(HPC)的世界里,除了编写高效的代码,构建一个稳定、可复现的运行环境同样至关重要。作为 HPC 平台的技术人员,我们发现超过 50% 的用户工单都...

1.1K10

毅硕HPC | 配置SLURM作业队列优先级

INSVAST

Slurm (Simple Linux Utility for Resource Management, http://slurm.schedmd.com/ )...

41610

万卡集群如何破局哈希极化与拥塞抖动?深度解读腾讯星脉网络的 TCCL+GOR 协同架构

AGI小咖

随着AI大模型参数规模从千亿向万亿发展,单独的计算芯片和存储芯片已无法满足AI大模型对参数量和计算量的需求,成为了制约 AI 技术发展的“算力墙”和“存储墙”两...

98610

毅硕HPC | Rocky Linux 9 SLURM软件编译安装

INSVAST

Slurm 是一个开源的、高度可扩展的工作负载调度器,专为高性能计算集群设计。它的名字是 Simple Linux Utility for Resource M...

73310

网络集群节点自动切换nginx负载均衡,自动生成nginx配置文件。小绿叶技术博客--中央集成--外层公共能源控制系统--集群网络节点控制--主驱动

eisc

50610

Nvidia探索光交换OCS在数据中心及高性能计算集群中的应用

光芯

这个工作是Nvidia最近在Optica旗下的JOCN期刊上发表的一篇邀请文章(https://doi.org/10.1364/JOCN.53431...

2.5K10

一文入门高性能计算HPC-详解2

晓兵

接上文: https://cloud.tencent.com/developer/article/2508936

85400

一文入门高性能计算HPC-详解1

晓兵

高性能计算(HPC) 是使用多组尖端计算机系统执行标准商用计算系统无法实现的复杂模拟、计算和数据分析的艺术和科学。

1.3K00

使用Python实现高性能计算集群管理:效率与灵活性兼得

Echo_Wish

高性能计算(HPC)集群在科研、工程和数据分析中扮演着关键角色。随着任务复杂度和数据规模的增长,管理这些集群成为一项挑战。Python作为一种强大而灵活的编程语...

55610

H800_3.2T RDMA测试指导文档

Yellowsun

腾讯云 | 产品经理 (已认证)

从"共享镜像"标签中选择“img-ixkhtmde H800_CVM_GPU镜像”。

1.3K10

A800_1.6T RDMA实例测试指导文档

Yellowsun

腾讯云 | 产品经理 (已认证)

从"共享镜像"标签中选择“A800_535_TL24_CVM_RELEASE img-haurw7f3”。

1.1K10
领券