CNCF 技术监督委员会(TOC)[1]投票接受Kubeflow[2]作为 CNCF 孵化项目。
Kubeflow 是一个开源、社区驱动的项目,用于在 Kubernetes 上部署和管理机器学习(ML)堆栈。Kubeflow 社区积极开发和支持面向 Kubernetes 的 MLOps,为其用户开发和部署流行的框架,包括 TensorFlow、PyTorch、XGBoost、Apache MXNet 等分布式机器学习(ML)。
Kubeflow 由 Google 于 2017 年创建。今天,有十个基于 Kubeflow 的商业发行版。这些发行版团队帮助满足 Kubeflow 的数百名贡献者,支持该项目及其数千名用户。Kubeflow 社区包括 150 多家公司,自 5 年前发布以来,已经发布了 15 个主要版本,积极地为用户提供支持。这些组织利用 Kubeflow 的 Kubernetes 原生可扩展性、安全性、资源分配和声明式操作,以更快、更经济的成本交付模型。
该项目已经与 CNCF 和 ML 社区密切集成。为增强其 Kubernetes 基础,Kubeflow 通过集成和打包 Kustomize、Knative、Istio、Certificate Manager 和 Argo 的好处简化了其安装、可扩展性、服务网格、安全性和工作流管理。它还与 gRPC、Prometheus 和其他社区集成,正在进行与 Kuberay 和 MLflow 的集成工作。
Kubeflow 集成了五个半独立的工作组的软件,简化了使用 Kubernetes 原生效率开发和部署机器学习模型的端到端流程。这些工作组包括:
该项目可以部署为独立组件或完整的端到端系统。
展望未来,Kubeflow 项目将专注于实施其v1.8 路线图[3],该版本将于 2023 年 10 月发布。新功能包括 Kubeflow Pipelines 2.0 GA、新的 AutoML 实验功能,提高规模数量以及 Training Operator 增强了高级模型并行技术和自定义流派调度程序支持。1.8 版本将在 Kubernetes、Kustomize、Istio、Certificate Manager、Argo 和 Knative 的定义依赖版本上进行测试。
作为一个由 CNCF 托管的项目,Kubeflow 是一个与其技术利益一致的中立基金会的一部分,也是更大的 Linux 基金会的一部分,该基金会提供治理、营销支持和社区拓展。该项目加入了其他 38 个孵化[4]技术,包括 Backstage、Cilium、Istio、Knative、OpenTelemetry 等。有关每个级别的成熟度要求的更多信息,请查看CNCF 毕业标准[5]。