前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Kubeflow将MLOps引入CNCF孵化器

Kubeflow将MLOps引入CNCF孵化器

作者头像
灵雀云
发布2023-08-09 12:27:55
2480
发布2023-08-09 12:27:55
举报

CNCF 技术监督委员会(TOC)[1]投票接受Kubeflow[2]作为 CNCF 孵化项目。

Kubeflow 是一个开源、社区驱动的项目,用于在 Kubernetes 上部署和管理机器学习(ML)堆栈。Kubeflow 社区积极开发和支持面向 Kubernetes 的 MLOps,为其用户开发和部署流行的框架,包括 TensorFlow、PyTorch、XGBoost、Apache MXNet 等分布式机器学习(ML)。

Kubeflow 由 Google 于 2017 年创建。今天,有十个基于 Kubeflow 的商业发行版。这些发行版团队帮助满足 Kubeflow 的数百名贡献者,支持该项目及其数千名用户。Kubeflow 社区包括 150 多家公司,自 5 年前发布以来,已经发布了 15 个主要版本,积极地为用户提供支持。这些组织利用 Kubeflow 的 Kubernetes 原生可扩展性、安全性、资源分配和声明式操作,以更快、更经济的成本交付模型。

该项目已经与 CNCF 和 ML 社区密切集成。为增强其 Kubernetes 基础,Kubeflow 通过集成和打包 Kustomize、Knative、Istio、Certificate Manager 和 Argo 的好处简化了其安装、可扩展性、服务网格、安全性和工作流管理。它还与 gRPC、Prometheus 和其他社区集成,正在进行与 Kuberay 和 MLflow 的集成工作。

主要组件:

Kubeflow 集成了五个半独立的工作组的软件,简化了使用 Kubernetes 原生效率开发和部署机器学习模型的端到端流程。这些工作组包括:

  • Notebooks Working Group 在 Jupyter、VSCode 和 R-Studio 笔记本中构建交互式开发环境,加速模型开发和实验。该工作组还开发了 Kubeflow 的中央仪表板和 Web 应用程序,为用户提供更轻松的数据可视化。
  • Training Operator Working Group 开发 Training Operator 软件,以在 Kubernetes 上实现分布式 ML 培训。它利用各种分布式策略在多 GPU 上训练大规模深度神经网络(deep neural networks,DNN)模型。Training Operator 允许你使用各种调度技术(例如 Volcano)和弹性培训来节省 ML 培训的计算资源。它支持所有主要 ML 框架,并为数据科学家提供简单的 SDK,以在 Kubernetes 上训练其模型。
  • AutoML Working Group 开发自动化模型开发软件,称为 Katib,其中包括超参数调整和其他模型优化功能,如神经体系结构搜索(neural architecture search,NAS)。Katib 提供许多优化算法,以评估 ML 模型的最佳参数,并通过使用各种早期停止(Early Stopping)技术节省计算资源。它还允许用户测试模型配置参数的许多变化,并通过实验跟踪 UI 或 SDK 评估最佳性能选项。
  • Kubeflow Pipelines Working Group 开发将 Python ML 脚本转换为稳定工作流模板的软件。工作流模板可重复使用,Kubeflow 流水线使你的工作负载易于实验和管理。在执行期间,Kubeflow 流水线使用高级工作流管理和监视简化分布式工作流自动化,具有高效的 Kubernetes 操作。
  • Manifests Working Group 开发 Kubeflow 的安装过程,包括各个和所有 Kubeflow 组件。由于 Kubeflow 基于 Kubernetes 基础,因此它使用 Kustomize 进行安装过程。
  • KServe 项目在 Kubernetes 上开发高度可扩展和基于标准的模型推理平台。虽然 KServe 是一个独立的项目,但它被纳入 Kubeflow 的安装和测试过程中。KServe 在简化端到端 MLOps 工作流程方面发挥着重要作用,显着简化了在生产中提供机器学习模型的过程。

该项目可以部署为独立组件或完整的端到端系统。

值得注意的里程碑:

  • GitHub 星:28K+
  • 公司贡献:150+
  • 总提交者:15K+
  • 总 GitHub 贡献:55K+
  • Slack 成员:9,000+
  • 自 2017 年以来发布了 15 个版本

展望未来,Kubeflow 项目将专注于实施其v1.8 路线图[3],该版本将于 2023 年 10 月发布。新功能包括 Kubeflow Pipelines 2.0 GA、新的 AutoML 实验功能,提高规模数量以及 Training Operator 增强了高级模型并行技术和自定义流派调度程序支持。1.8 版本将在 Kubernetes、Kustomize、Istio、Certificate Manager、Argo 和 Knative 的定义依赖版本上进行测试。

作为一个由 CNCF 托管的项目,Kubeflow 是一个与其技术利益一致的中立基金会的一部分,也是更大的 Linux 基金会的一部分,该基金会提供治理、营销支持和社区拓展。该项目加入了其他 38 个孵化[4]技术,包括 Backstage、Cilium、Istio、Knative、OpenTelemetry 等。有关每个级别的成熟度要求的更多信息,请查看CNCF 毕业标准[5]

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-07-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 云原生技术社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 主要组件:
  • 值得注意的里程碑:
相关产品与服务
服务网格
服务网格(Tencent Cloud Mesh, TCM),一致、可靠、透明的云原生应用通信网络管控基础平台。全面兼容 Istio,集成腾讯云基础设施,提供全托管服务化的支撑能力保障网格生命周期管理。IaaS 组网与监控组件开箱即用,跨集群、异构应用一致发现管理加速云原生迁移。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档