前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >技术集锦 | 云原生 AI 技术原理及最佳实践系列

技术集锦 | 云原生 AI 技术原理及最佳实践系列

作者头像
腾讯云原生
发布2022-03-24 16:11:34
8720
发布2022-03-24 16:11:34
举报
文章被收录于专栏:腾讯云原生团队

云原生已成为了云计算行业下一代的标准。目前,除了传统应用与基础架构的云原生化,AI 与大数据也开始拥抱云原生的架构。

腾讯云容器服务基于在云原生领域的技术沉淀,推出模块化,低耦合、高扩展性的云原生 AI 服务,旨在利用云原生的思想和技术,为 AI 场景的数据处理、模型训练、模型上线推理等需求构建弹性可扩展的系统架构的技术,在支持更广泛、多样的用户需求的同时,提高开发、运维和设备的效率。

【腾讯云原生】收集了关于云原生 AI 系列干货文8篇,帮助你更好了解“云原生 AI”,一定要收藏哦!

技术原理 & 实践

云原生的弹性 AI 训练系列之一:基于 AllReduce 的弹性分布式训练实践

  • 本文主要介绍了数据并行的分布式训练任务的弹性能力在 Kubernetes 上的设计与实现。并且通过实验的方式验证了特定的场景下,在保证训练精度的同时,这一特性能够使成本降低 70%。

云原生的弹性 AI 训练系列之二:PyTorch 1.9.0 弹性分布式训练的设计与实现

  • 本文介绍了 PyTorch 1.9.0 版本中弹性训练的设计与实现。然后分析总结了实现弹性训练的方式和不同框架之间的设计差异。

云原生的弹性 AI 训练系列之三:借助弹性伸缩的 Jupyter Notebook,大幅提高 GPU 利用率

  • 这篇文章介绍了 elastic-jupyter-operator 这一开源项目的使用方式以及工作原理。

公有云上构建云原生 AI 平台的探索与实践

  • 本文介绍了 AI 类业务在公有云上的现状以及相应的技术选型和面临的问题,同时分享了对于未来全弹性的 AI 基础设施的展望。

Fluid + GooseFS 助力云原生数据编排与加速快速落地

  • 本文介绍了 Fluid 技术的背景以及与 GooseFS 的关系,通过在 TKE 集群上的实际操练让大家体验 Fluid v0.6.0 的两大特性,让大家进一步了解云原生应用场景下的数据编排能力。

云原生 AI 前沿:Kubeflow Training Operator 统一云上 AI 训练

  • 本文介绍了 kubeflow 社区面对多个 训练 operator 遇到的维护、性能上的问题,通过融合的方式构建统一的 training-operator。

Aggregated APIServer 构建云原生应用最佳实践

  • 本文从实战角度出发介绍我们开发 SKAI 平台过程中选择 Aggregated API 的原因,以及 kube-apisever 的扩展原理,演示如何构建起自己的 Aggregated API,并将它部署到 EKS 集群中。

GPU 分布式 AI 训练加速引擎 TACO-Training 容器方案首发!

  • 本文介绍了 TKE 提供的云原生 AI 能力和腾讯云自研网络协议栈 HARP,并指导用户如何在 TKE 上部署实践 TACO-Training 分布式训练方案。

宠粉福利

转发本文到朋友圈并集赞88个,将截图发到【腾讯云原生】公众号后台,随机抽取3名送腾讯周边一份!活动截止至3月27日中午12点。

重 磅 来 袭

【云原生正发声】第十六今晚19:30将和你一起听腾讯专家聊 Cloud FinOps 云上的资源管理和成本优化。

Linux 基金会亚太地区开源布道师团队与【云原生正发声】节目联手,推出【Cloud FinOps —— 云上的资源管理和成本优化】线上直播,与大家分享云计算时代如何有效的分摊、管理、优化成本。

快快扫码进入直播预约吧!

  往期精选推荐  

点个“在看”每天学习最新技术

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-03-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云原生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 技术原理 & 实践
相关产品与服务
容器服务
腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档