首页
学习
活动
专区
圈层
工具
发布

平台驻场运维

JD基本信息

岗位职责

1、负责智算中心项目基础设施的运维管理,包括算力调度平台、算力、网络、储存和安全等方面;

2、管理和维护智算中心的稳定运行,包括硬件和软件的维护、系统安装、硬件维护、拆装网卡、GPU,以及简单维修等工作;

3、协助机房对设备进行日常巡检、保障处理等工作;

4、跟踪智算中心项目事件进度,协调各方资源,确保项目按时按质完成;

5、对智算中心的运行情况进行风险评估和管理,保障集群的正常运转;

6、协助进行项目团队的建设和管理,提升团队的综合素质和工作效率;

任职要求

1、熟悉人工智能、云计算等领域的技术和产品,

2、了解主流模型deepseekR1、llama3、千问等模型产品的使用;

3、 理解大模型推理优化技术(vLLM、TGI、FlashAttention、量化推理等)。

4、熟悉主流深度学习框架(PyTorch、TensorFlow)及分布式训练技术(FSDP/Deepspeed/Megatron-LM)。

5、熟悉算力中心或数据中心机房的基础设施,掌握服务器和IT设备基础设施及强弱电相关知识;

6、熟悉Linux平台,有K8S 组件运维经验,对服务器进行基础维护与管理;

7、具备GPU集群管理经验(如NVIDIA DGX/SuperPOD),熟悉CUDA、NVLink、RDMA网络。 ;

8、具备良好的沟通技巧和团队合作能力,能够有效地传达和解决问题,协调不同部门之间的需求和资源;

9、有算力中心和数据中心架构设计和运维经验者优先。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O7bmbZ7oWAGgH1XeC_IO0zzA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券