文章/答案/技术大牛

发布

社区首页 >问答首页 >顶点AI在增加复制数量之前将缩放到0

问顶点AI在增加复制数量之前将缩放到0
EN

Stack Overflow用户

提问于 2021-12-22 12:32:34

回答 1查看 91关注 0票数 1

我在us-east中有一个端点，它为自定义导入的模型提供服务(码头映像)。

此端点使用min replicas = 1和max replicas = 100。

有时，顶点AI将要求模型的比例从1到2。

然而，似乎存在一个问题，导致副本的数量从1 -> 0 -> 2而不是1 -> 2。

这在我的API中造成了几个504 (网关超时)错误，解决方法是设置min replicas > 1，严重影响了应用程序的每月成本。

对于顶点AI/GCP服务来说，这是已知的问题吗？

google-cloud-platform

google-cloud-vertex-ai

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-01-03 09:21:47

间歇性的504错误可能是一个端点在处理负载时准备不足的结果。如果在端点有机会扩展之前将太多的预测请求发送到端点，也会发生这种情况。

对传入的预测请求进行流量分割是随机的。因此，多个请求可能同时出现在同一个模型服务器上。即使整个每秒的查询( QPS )是低的，特别是当QPS是尖峰时，也会发生这种情况。如果模型服务器无法处理负载，这将导致请求排队。这就是导致504错误的原因。

减轻504 错误的建议如下：

提高容器使用容器中所有资源的能力。关于资源利用，需要记住的一件事是模型服务器是单线程的还是多线程的。容器可能没有消耗所有的核心和/或请求排队，因此只能在一个时间服务。
自动标度正在发生，它可能需要根据预测工作量和预期进行调整。较低的利用率阈值将更快地触发自动标度。
在部署缩放时执行指数退避。这样，就有一种重试机制来处理失败的请求。
为端点提供更高的最低副本计数，您已经实现了。

如果上述建议不能解决问题，或者通常需要对这些错误进行进一步的调查，请联系GCP支持，以防您有支援计划。否则，请在问题跟踪器中打开一个问题。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/70449117

复制

相似问题

问顶点AI在增加复制数量之前将缩放到0
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问顶点AI在增加复制数量之前将缩放到0EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问顶点AI在增加复制数量之前将缩放到0
EN