首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >顶点AI在增加复制数量之前将缩放到0

顶点AI在增加复制数量之前将缩放到0
EN

Stack Overflow用户
提问于 2021-12-22 12:32:34
回答 1查看 91关注 0票数 1

我在us-east中有一个端点,它为自定义导入的模型提供服务(码头映像)。

此端点使用min replicas = 1max replicas = 100

有时,顶点AI将要求模型的比例从1到2。

然而,似乎存在一个问题,导致副本的数量从1 -> 0 -> 2而不是1 -> 2

这在我的API中造成了几个504 (网关超时)错误,解决方法是设置min replicas > 1,严重影响了应用程序的每月成本。

对于顶点AI/GCP服务来说,这是已知的问题吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-01-03 09:21:47

间歇性的504错误可能是一个端点在处理负载时准备不足的结果。如果在端点有机会扩展之前将太多的预测请求发送到端点,也会发生这种情况。

对传入的预测请求进行流量分割是随机的。因此,多个请求可能同时出现在同一个模型服务器上。即使整个每秒的查询( QPS )是低的,特别是当QPS是尖峰时,也会发生这种情况。如果模型服务器无法处理负载,这将导致请求排队。这就是导致504错误的原因。

减轻504 错误的建议如下:

  • 提高容器使用容器中所有资源的能力。关于资源利用,需要记住的一件事是模型服务器是单线程的还是多线程的。容器可能没有消耗所有的核心和/或请求排队,因此只能在一个时间服务。
  • 自动标度正在发生,它可能需要根据预测工作量和预期进行调整。较低的利用率阈值将更快地触发自动标度。
  • 在部署缩放时执行指数退避。这样,就有一种重试机制来处理失败的请求。
  • 为端点提供更高的最低副本计数,您已经实现了。

如果上述建议不能解决问题,或者通常需要对这些错误进行进一步的调查,请联系GCP支持,以防您有支援计划。否则,请在问题跟踪器中打开一个问题。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70449117

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档