2024年12月3日,腾讯专有云高级产品经理王巧玲受邀参加了“云·AI·计算国际合作论坛”,并进行了“腾讯云原生AI实践”的主题分享。
在当今数字化转型加速的时代,“Cloud Native AI”成为技术发展的前沿主题。借助云原生架构,人工智能应用能够获得前所未有的灵活性、可扩展性和敏捷性。通过微服务、容器化技术如Kubernetes,可以简化AI模型的开发、部署和管理流程,提升资源利用效率。
随着AI应用技术的爆发式增长,聚焦于未来AI行业应用的落地场景,腾讯专有云基于Tencent TCS平台推出模块化、低耦合、高扩展性的云原生AI架构,旨在利用云原生技术标准和优势,为 AI场景的数据处理、模型训练、模型上线推理等需求构建弹性可扩展的新一代AI算力基础设施,在支持更广泛、多样的用户需求的同时,提高开发、运维和设备的效率。
Tencent TCS作为面向AI应用场景的新一代容器化算力平台,为AI智算场景提供高性能、可扩展和稳定的容器运行环境以及GPU虚拟化等关键能力:
● 异构集群节点池实现了一云多芯的增强版。在同一个子集群中支持不同架构的节点池,帮助客户有效减少成本,便于管理节点池,提高部署和运维效率。 ● 引入腾讯云的Turbofs高性能存储方案,集成了优化的数据传输路径和并行处理能力,能够有效地处理大量数据请求,满足AI模型训练和推理过程中对存储性能的苛刻要求。 ● 自动化运维系统能够及时发现并处理潜在问题,减少宕机时间,提高运维效率。同时,通过全面的日志采集和分析,用户可以更深入地了解系统运行状态,保证系统的健康。 ● 支持成本中心,赋能用户优化资源分配和成本控制、提升效率、辅助决策,从而确保企业在IT资源管理中实现最大化的投资回报和发展潜力。
进一步地,腾讯专有云提出了基于Tencent TCS平台的AI一站式解决方案,TCS容器可以同时纳管用户的第三方云平台集群和自研集群,所有集群通过AI kubernetes 扩展插件,来管理整个AI作业的生命周期。
AI一站式解决方案通过高效的资源管理与调度、容器化部署、弹性扩展、持续集成与部署、监控与日志管理、数据管理、安全性和隔离性、协作与共享以及可视化工具等功能,实现了AI应用开发、训练、推理和管理的全流程自动化与优化,显著提高了AI开发和部署的效率,使团队能够专注于核心算法和应用创新,同时降低了技术门槛和运营成本。
目前Tencent TCS的AI一站式解决方案已成功助力一些国产半导体头部企业,头部银行等客户基于NVIDIA、国产系列GPU卡等部署AI作业场景应用,并且未来将进一步扩大使用规模,以持续提升计算性能与效率。
在此次分享过程中,各行业听众对腾讯在云原生AI领域的实践经验给予热烈回应,并与Tencent TCS团队针对关注的热点话题进行广泛的交流,并期待未来能与Tencent TCS进一步深入合作,将自有AI业务部署到Tencent TCS平台上。
Tencent TCS将持续助力云原生AI的全面发展,通过提供一站式的AI解决方案,助力各行业加速迈向智能化时代。无论是在算法训练、模型部署,还是在大规模数据处理方面,Tencent TCS都将以其卓越的算力和完备的功能,为企业和开发者提供强有力的支持。