开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Kubernetes + TF serving -如何使用数百个ML模型，而不运行数百个空闲的pods？

Kubernetes是一个开源的容器编排平台，用于自动化部署、扩展和管理容器化应用程序。TF Serving是TensorFlow的一个组件，用于提供机器学习模型的服务化能力。在使用数百个ML模型时，可以通过以下方式避免运行数百个空闲的pods：

模型版本管理：使用Kubernetes的Deployment资源来管理不同版本的模型。每个模型版本对应一个Deployment，可以根据需要进行扩展或缩减。
水平自动伸缩：Kubernetes提供了自动伸缩的功能，可以根据负载情况自动调整副本数量。可以根据实际需求设置合适的CPU、内存等资源限制，以确保资源的高效利用。
模型预加载：可以在启动Pod时预加载一部分模型，以减少启动时间。可以使用Kubernetes的Init Containers功能，在容器启动之前预加载模型。
模型共享：如果多个模型之间存在共享的部分，可以将这部分模型提取出来，作为一个公共的模型，供其他模型使用。这样可以减少重复加载和运行的模型数量。
模型调度策略：可以根据模型的使用频率、资源需求等因素，制定合适的调度策略。例如，可以使用Kubernetes的调度器插件来实现基于优先级的调度，确保高优先级的模型优先被调度。
模型缓存：可以使用缓存技术，将模型的计算结果缓存起来，以减少对模型的频繁调用。可以使用Redis等缓存工具来实现模型缓存。

腾讯云相关产品推荐：

腾讯云容器服务（TKE）：提供了基于Kubernetes的容器编排服务，可用于部署和管理容器化应用程序。
腾讯云函数计算（SCF）：提供了无服务器的计算服务，可用于按需运行机器学习模型，避免空闲资源浪费。
腾讯云缓存Redis：提供了高性能的缓存服务，可用于实现模型缓存，提高模型调用的性能。

更多腾讯云产品信息，请参考腾讯云官方网站：腾讯云

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Armada｜如何使用Kubernetes在数千个计算节点上运行数百万个批处理作业

我们有一个大型的、固定的 on-prem 计算池，Condor 模型的优点之一是，你可以提交比你的基础设施一次处理的更多的作业，多余的作业在外部排队，并使用公平共享系统进行优先级排序。...我们有一些关键的架构原则要遵守：编写一些软件来添加排队和公平共享，而不需要修改 Kubernetes 本身。让 Kubernetes 来做节点调度和容器生命周期管理的艰苦工作。...使用基于拉的模型来获得工作，让我们更容易扩大规模此外，我们从一开始就希望它是开源的。我们已经从开源技术中受益越来越多，尤其是 Kubernetes 本身。...我们很快就产生了一个概念验证，并有了一个应用程序，我们可以在 AWS 中使用它来证明 Kubernetes 能够在多个集群（每个集群有数百个节点）上运行数万个作业。...重要的是，我们能够证明，只要我们在外部处理排队，Kubernetes 不需要进行任何特殊的调优，就可以处理数千个容器的启动和停止。那么它是如何工作的呢？ ? Armada 的设计很简单。

9332 0

教程 | 从零开始：TensorFlow机器学习模型快速部署指南

如果你已使用 TensorFlow 或 Caffe 等深度学习框架训练好了 ML 模型，该模型可以作为 demo。如果你更喜欢轻量级的解决方案，请阅读本文。.../test_p2p_proxy.sh 生产环境中的机器学习第一次进入 Hive 的机器学习空间，我们就已经拥有数百万个真值标注图像，这可以让我们在一周时间内从头训练（即随机权重）适用于特定使用案例的顶尖深度卷积图像分类模型...更典型的 ML 用例通常基于数百个图像，这种情况我推荐大家对现有模型进行微调。...一些有名的工具，如 Consul 和 Zookeeper。设置并学习如何使用此类工具超出了本文范畴，因此，我使用 node.js 服务发现包 seaport 推断了一个非常初级的代理。...在云端，Kubernetes 或者 Marathon/Mesos 都非常棒模型版本管理一开始手动管理模型不是很难 TensorFlow Serving 是处理这个问题的不错工具，还有批处理和整体部署

8945 0

从零开始：TensorFlow机器学习模型快速部署指南

如果你已使用 TensorFlow 或 Caffe 等深度学习框架训练好了 ML 模型，该模型可以作为 demo。如果你更喜欢轻量级的解决方案，请阅读本文。.../test_p2p_proxy.sh 生产环境中的机器学习第一次进入 Hive 的机器学习空间，我们就已经拥有数百万个真值标注图像，这可以让我们在一周时间内从头训练（即随机权重）适用于特定使用案例的顶尖深度卷积图像分类模型...更典型的 ML 用例通常基于数百个图像，这种情况我推荐大家对现有模型进行微调。...例如，https://www.tensorflow.org/tutorials/image_retraining 页面上有如何微调 ImageNet 模型对花样本数据集（3647 张图像，5 个类别）进行分类的教程...一些有名的工具，如 Consul 和 Zookeeper。设置并学习如何使用此类工具超出了本文范畴，因此，我使用 node.js 服务发现包 seaport 推断了一个非常初级的代理。

1.5K7 0

手把手：我的深度学习模型训练好了，然后要做啥？

大数据文摘作品编译：姜范波、云舟本文讲的是如何快速而不求完美地部署一个训练好的机器学习模型并应用到实际中。...然而，在更典型的应用场景中，图像的数量级通常只有数百幅，这种情况下，我建议微调现有的模型。...一旦开始尝试在GPU上进行运算，这一点就会变得很明显——可以看到GPU内存使用随着Tensorflow加载和卸载GPU的模型参数而上下波动。...将本地运行转换为在线运行（其他ML框架） Caffe使用net.forward代码，很容易被放入一个可调用的框架中：see http://nbviewer.jupyter.org/github/BVLC...o 一旦你在生产中得到了一些不同的ML模型，你可能会开始想要混合和匹配不同的用例——只有在模型B不确定的情况下才运行模型A，在Caffe中运行模型C并将结果传递给模型D在Tensorflow 等等。

1.6K2 0

使用Dubbo+Kubernetes部署线上的TensorFlow Serving服务

Serving实例都能尽量去利用空闲的资源，提高资源使用率。...方案注意事项使用Kubernetes Deployment(replicas=1)来管理一个模型的Serving实例，同一个模型的副本数用户可以在TaaS上配置，注意：每个副本都对应一个Deployment...Deployment的replicas设置为1，TaaS按照创建顺序，给同一个模型的多个Serving副本的Deployments、Services和Pods打上对应的Label：Index:$N, Model...为了兼容一机多实例的场景，不能使用hostNetwork:true共享Host网络命名空间，否则必然会导致tomcat和Serving无法启动的问题。如何进行一机单实例部署?...如何进行一机多实例部署? 稳定运行一段时间后，如果发现集群的资源利用率较低，那么考虑一机多实例的方式进行部署。

2.1K2 0

《Scikit-Learn、Keras与TensorFlow机器学习实用指南（第二版）》第19章规模化训练和部署TensorFlow模型

本章我们会介绍如何部署模型，先是TF Serving，然后是Google Cloud AI平台。还会快速浏览如何将模型部署到移动app、嵌入式设备和网页应用上。...使用TensorFlow Serving TF Serving是一个非常高效，经过实战检测的模型服务，是用C++写成的。...使用预测服务在底层，AI Platform就是运行TF Serving，所以原理上，如果知道要查询的url，可以使用之前的代码。就是有一个问题：GCP还负责加密和认证。...什么时候使用TF Serving？它有什么特点？可以用什么工具部署TF Serving？如何在多个TF Serving实例上部署模型？...为什么使用gRPC API而不是REST API，查询TF Serving模型？在移动和嵌入设备上运行，TFLite减小模型的大小有什么方法？什么是伪量化训练，有什么用？

6.7K2 0

从零搭建机器学习平台Kubeflow

1.2 Kubeflow 背景 Kubernetes 本来是一个用来管理无状态应用的容器平台，但是在近两年，有越来越多的公司用它来运行各种各样的工作负载，尤其是机器学习炼丹。...下图显示了 Kubeflow 作为在 Kubernetes 基础之上构建机器学习系统组件的平台： kubeflow是一个胶水项目，它把诸多对机器学习的支持，比如模型训练，超参数训练，模型部署等进行组合并已容器化的方式进行部署...工作流末尾的箭头指向流程表示机器学习任务是一个逐渐迭代的过程：在实验阶段，您根据初始假设开发模型，并迭代测试和更新模型以产生您正在寻找的结果：确定希望 ML 系统解决的问题；收集和分析训练...ML 模型所需的数据；选择 ML 框架和算法，并对模型的初始版本进行编码；试验数据并训练您的模型。...训练 ML 模型。为在线预测或以批处理模式运行的模型提供服务。监控模型的性能，并将结果提供给您的流程以调整或重新训练模型。

8.6K4 3

迈向 serverless 开发的第一步

boot 命令还包含 Kubernetes 集群的一些其他配置，这些配置是启动和运行 Knative 所必需的。...用命令 kubectl –namespace knative-serving get pods 检查所有程序是否正在运行。如果是这种情况，应该显示下面的输出。...这将能够帮你弄清楚实际差异究竟在哪里，以及如何使用 Knativeless server 进行现有部署。创建 Kubernetes 资源文件以下步骤显示了如何创建 Kubernetes 资源文件。...同样，在这一点上，命令 kubectl get pods –watch 可用于获取有关应用状态的信息，而 CTRL + C 可终止整个过程。...如果允许部署处于空闲模式约 90 秒钟，则部署将终止。在下一个调用中，然后重新激活计划的部署并应答请求。恭喜，你已经成功部署并调用了自己的第一个 serverless 应用！ ?

8601 0

业界 | TensorFlow 携手 NVIDIA，使用 TensorRT 优化 TensorFlow Serving 性能

/tensorrt TensorFlow Serving 是应用于机器学习模型的灵活的高性能服务系统，而 NVIDIA TensorRT 则是一个用以实现高性能深度学习推理的平台，将二者相结合后，用户可以轻松地实现最佳性能的...）中，我们向大家介绍了怎样如何借助 Docker 来使用 TensorFlow Serving。...，我们演示了如何使用 TensorFlow Serving CPU Docker 图像来创建模型。...： $ docker kill tfserving_resnet 我们可以看到，使用 TensorFlow Serving 和 Docker 生成经 TF-TRT 转换的模型与创建一个普通的模型一样简单...此外，作为一次演示，上文中的性能数值仅适用于我们所使用的模型和运行该案例的设备，不过它的确体现出使用 TF-TRT 所带来的性能优势。

1.3K2 0

官方解读：TensorFlow 2.0中即将到来的所有新特性

用 eager execution 运行和调试，然后在图形上使用 tf.function。TensorFlow 2.0 默认用 eager execution 运行，以便于轻松使用和顺利调试。...使用分布式策略进行分布式训练。对于大部分 ML 训练任务来说，Distribution Strategy API 使得在不同的硬件配置上分布和训练模型变得很容易，而无需改变模型定义。...TPU 的支持，使 TensorFlow 2.0 成为一个易于使用、可定制和高度可扩展的平台，用于展开最先进的 ML 研究并将该研究转化为生产流水线。...较大的项目最好单独维护，而较小的扩展将逐渐移至核心 TensorFlow 代码。一个特别兴趣小组（SIG）已经成立，以维持和进一步发展一些更重要的未来 contrib 项目。...然而，2.0 中的更改意味着原始检查点中的变量名可能会更改，所以使用 2.0 之前的检查点而代码已转化为 2.0 时，可能无法保证有效。

8352 0

官方解读：TensorFlow 2.0中即将到来的所有新特性

用 eager execution 运行和调试，然后在图形上使用 tf.function。TensorFlow 2.0 默认用 eager execution 运行，以便于轻松使用和顺利调试。...使用分布式策略进行分布式训练。对于大部分 ML 训练任务来说，Distribution Strategy API 使得在不同的硬件配置上分布和训练模型变得很容易，而无需改变模型定义。...TPU 的支持，使 TensorFlow 2.0 成为一个易于使用、可定制和高度可扩展的平台，用于展开最先进的 ML 研究并将该研究转化为生产流水线。...较大的项目最好单独维护，而较小的扩展将逐渐移至核心 TensorFlow 代码。一个特别兴趣小组（SIG）已经成立，以维持和进一步发展一些更重要的未来 contrib 项目。...然而，2.0 中的更改意味着原始检查点中的变量名可能会更改，所以使用 2.0 之前的检查点而代码已转化为 2.0 时，可能无法保证有效。

7823 0

业界 | 谷歌发布机器学习工具库Kubeflow：可提供最佳OSS解决方案

选自GitHub 机器之心编译 Kubeflow 是谷歌发布的一个机器学习工具库，致力于使运行在 Kubernetes 上的机器学习变的更轻松、便捷和可扩展；Kubeflow 的目标不是重建其他服务，而是提供一种简便的方式找到最好的...训练控制器（Tensorflow Training Controller） TF 服务容器（TF Serving container）该文档详述在可运行 Kubernetes 的任何环境中运行 kubeflow...最终，我们希望给出一组简单的清单，只要在 Kubernetes 已运行的地方便能轻松使用 ML 堆栈，并可根据部署的集群实现自我配置。设置该文档假设你已经有一个可用的 Kubernetes 集群。...对于具体的 Kubernetes 安装，可能需要额外的配置。 Minikube Minikube 是一个让我们在本地运行 Kubernetes 更方便的工具。...Minikube 会在笔记本的虚拟环境中运行一个单结点 Kubernetes 集群，从而令用户可以在该环境中试验它或执行日常的开发工作。

1.4K4 0

深度学习Tensorflow生产环境部署（下·模型部署篇）

前一篇讲过环境的部署篇，这一次就讲讲从代码角度如何导出pb模型，如何进行服务调用。...tensorflow/serving:1.12.0 拉取完镜像，需要下载一个hello world的程序代码。...serving的github中有对应的测试模型，模型其实就是 y = 0.5 * x + 2。...这一部分就直接基于手写体识别的例子，展示一下如何从tensorflow训练代码导出模型，又如何通过grpc服务进行模型的调用。训练和导出: #!...if __name__ == '__main__': tf.app.run() 执行后，在当前目录中就有一个save_model文件，保存了各个版本的pb模型文件。

1.8K2 1

如何用TF Serving部署TensorFlow模型

-4b4b78d41700 image.png 简介如何将机器学习(ML)模型部署上线至生产环境已成为经常性的热门话题。...为此许多公司和框架提出了各种不同的解决方案。为解决这一问题，谷歌发布了TensorFlow (TF) Serving，希望能解决ML模型部署到生产的一系列问题。...本文将给出一篇动手教程，上线部署一个预训练的卷积语义分割网络。文中会讲解如何用TF Serving部署和调用基于TensorFlow的深度CNN模型。...TensorFlow Serving Libraries — 概述我们首先花点时间了解TF Serving是如何为ML模型提供全生命周期服务的。...注如果从bazel运行Serving API，无需Python 2环境也可以运行。可参考TF Serving Installation。完成这步后，开始真正的模型部署。

3K2 0

Tungsten Fabric架构和最新技术进展

TF与Kubernetes的集成大家再来看一下TF和Kubernetes（以下简称K8s）的集成，首先，TF的CONTRAIL Controller会和K8s通过API进行通讯，那么，某一个指定的位置...P2的策略）在生产阶段也需要，在不使用TF的情况下，很有可能会出现重复的策略，而是用TF之后，我们可以只使用一个策略。...如果你有一个非常大型的跨地理区域分布式的金融应用，它可能使用了多个网络，网络上还有数百种的应用，这个时候你只需要一个策略，就可以对整个分布式的金融应用进行管理。...TF专门有一个Networking Open Contrail，可以将TF作为一个ML2的插件去启动。这样做有什么好处呢？我们可以同时去运行基于OVS、SR-IOV和vRouter的这工作。...你可以用OpenStack来运行OVS、SR-IOV的工作负载，并且在网络层面使用我们的TF去进行管理。接下来我们将为大家进行演示，看看如何把基于OVS的计算迁移到基于vRouter上面。

5203 0

将 Kubernetes 扩展至7500个节点

我们已经将 Kubernetes 集群扩展到了7500个节点，该集群主要是为 GPT-3、CLIP 和 DALL·E 等大型模型提供可扩展的基础设施，同时也为神经语言模型的缩放定律等快速的小规模迭代研究提供基础支持...我们的网络模型有一个特别的地方是，我们将节点、Pod 和 Service CIDR 范围完全暴露给我们的研究人员。我们有一个中心辐射网络模型，并使用本机节点和 Pod CIDR 来路由该流量。...配额和资源使用当我们扩大集群规模时，研究人员开始发现自己很难获得分配给他们的所有容量。传统的作业调度系统有很多不同的功能，可以在团队之间公平地运行工作任务，而 Kubernetes 没有这些特性。...（我们选择使用 Deployment 而不是 DaemonSet，以避免 DaemonSet 被视为节点上的空闲工作负载。）...不过还有很多地方需要改进，OpenAI 的超级计算团队将继续探索 Kubernetes 如何扩展。

7263 0

大规模k8s集群的潮汐调度

01、背景有一个渲染应用场景，单一个工作负载（Deployment）就有数百个副本，为了降低运维成本，选择了某云商的弹性容器实例产品作为载体，其按pod数量以小时计费，相较于准备大量的Node的方式要划算得多...那么，如果能够精准回收闲置的Pods，将能够实现极致的运维降本，但同时又是一个难题，我们知道单纯用HPA是无法实现的，所以为了实现该目标，我们研究出了如下方案实现高效的潮汐调度。...最后，我们发现了Openkruise这个组件，可以通过自定义探针PodProbeMarker自动给Pods注入pod-deletion-cost的分值，将CPU使用率较低的删除成本设置为5，将CPU使用率较高的设置为...接下来是关键环节，创建PodProbeMarker控制器，通过自定义探测脚本idle.sh来判断Pods的CPU是否处于空闲，如果空闲则将删除成本设置为5，繁忙则设置为10，而是否繁忙可以从渲染Pod...: .metadata.annotations["controller.kubernetes.io/pod-deletion-cost"]}' 别急，我们还要验证下，当Pod空闲的时候是否会将删除成本修改为

3611 0

kubeflow系列(二)：kubeflow组件介绍

kubeflow kubeflow 最开始基于tf-operator，后来随着项目发展最后变成一个基于云原生构建的机器学习任务工具大集合。...ambassador 微服务网关 argo 用于任务工作流编排 centraldashboard kubeflow的dashboard看板页面 tf-job-operator 深度学习框架引擎，一个基于...tenserflow serving 提供一个稳定的接口，供用户调用，来应用该模型，serving 通过模型文件直接创建模型即服务(Model as a service) ?...运行步骤：先要定义一个Experiment实验然后发起任务，定义一个Pipeline 运行Pipeline实例 ? 结构介绍 ?...web server: pipeline的前端服务 Pipeline Service： pipeline的后端服务 Kubernetes resources: 创建CRDs运行pipeline Machine

3.6K6 1

ChatGPT 能否解决集体 Kubernetes 故障诊断吗？

由于 Kubernetes 缺乏数据持久性，可观测性数据碎片化地分布在多个平台上，如果被捕捉到的话。映射数十个或数百个服务、资源和依赖关系的互联性是一项徒劳的工作。...现在，每个 Kubernetes 的 DevOps 平台都在建立最后一个堤坝：将故障诊断知识集中在其平台内，并以 AI 和机器学习(ML)替换它，直到整个技术栈对甚至你最有经验的云原生工程师来说都成为一个黑盒子...Cynefin 模型。来源:维基百科 Hodgson 使用 Cynefin 模型来说明软件架构过去是如何复杂的，也就是说，只要有足够的经验，人们就可以理解故障诊断和解决方案之间的因果关系。...其他人认识到组织的可观测性数据是培训 AI/ML 模型分析新场景的宝贵资源。...例如，如果一个刚接触 Kubernetes 的开发人员在运行 kubectl get pods 时遇到部署应用程序的问题，因为他们看到了 CrashLoopBackOff 状态，那么他们可以查询 AI

1461 0

动态 | TensorFlow 2.0 新特性来啦，部分模型、库和 API 已经可以使用

TensorFlow 2.0 将重点放在简单和易用性上，它做了以下更新：用 Keras 建立简单的模型并执行在任何平台上的生产中进行强大的模型部署强大的研究实验通过清除不推荐使用的 API 和减少重复来简化...使用 tf.keras 构建、训练和验证您的模型，或者使用 Premade Estimators 来验证您的模型。...如果您不想从头开始训练一个模型，您很快就能使用迁移学习来训练一个使用TensorFlowHub 模块的 Keras 或 Estimator 模型。...使用 eager execution 运行和调试，然后使用 tf.function。TensorFlow 2.0 在默认情况下运行时有很强的执行能力。...对于大型 ML 训练任务，分发策略 API 使在不更改模型定义的情况下，可以轻松地在不同的硬件配置上分发和训练模型。

1.1K4 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭