我在us-east
中有一个端点,它为自定义导入的模型提供服务(码头映像)。
此端点使用min replicas = 1
和max replicas = 100
。
有时,顶点AI将要求模型的比例从1到2。
然而,似乎存在一个问题,导致副本的数量从1 -> 0 -> 2
而不是1 -> 2
。
这在我的API中造成了几个504 (网关超时)错误,解决方法是设置min replicas > 1
,严重影响了应用程序的每月成本。
对于顶点AI/GCP服务来说,这是已知的问题吗?
发布于 2022-01-03 09:21:47
间歇性的504
错误可能是一个端点在处理负载时准备不足的结果。如果在端点有机会扩展之前将太多的预测请求发送到端点,也会发生这种情况。
对传入的预测请求进行流量分割是随机的。因此,多个请求可能同时出现在同一个模型服务器上。即使整个每秒的查询( QPS )是低的,特别是当QPS是尖峰时,也会发生这种情况。如果模型服务器无法处理负载,这将导致请求排队。这就是导致504错误的原因。
减轻504
错误的建议如下:
如果上述建议不能解决问题,或者通常需要对这些错误进行进一步的调查,请联系GCP支持,以防您有支援计划。否则,请在问题跟踪器中打开一个问题。
https://stackoverflow.com/questions/70449117
复制相似问题