我们使用HTTP(S)负载均衡器在我们的GKE后端与NEGs前面。最近,我们使用loadbalancing.googleapis.com/https/backend_request_count度量在GCP监控中为5xx个负载均衡器错误创建了警报,有时即使在应用程序端没有看到500个错误(至少在10分钟的时间范围内),也会触发带有500个错误的警报。
这可能是负载均衡器本身的内部网络问题吗?或者还有什么能导致这一切?也许在GKE集群内部有什么东西?我们检查了负载均衡器本身的日志,但是没有找到任何有助于解决这个问题的更多细节。
发布于 2021-04-18 17:48:11
首先,您应该查看Google日志记录并查找这些错误请求,以防您已经为GKE集群启用了日志记录。这将为您提供有关这些失败请求的更多详细信息。
其次,推荐的方法是使用Google和OpenTelemetry对应用程序进行测试。通过这种方式,您可以创建警报、度量、仪表板,甚至可以检查请求和代码块生成的错误。
这不是一项快速而容易的任务,但对于调试目的来说,这是非常有价值的。
请看一下Strackdriver跟踪
发布于 2021-12-22 00:19:09
基于没有看到特定于应用程序的错误这一事实,一种可能的情况是,您的健康检查可能定期失败。我首先要检查,以确保后端(S)的健康检查配置正确(URI、超时值等)。如果一切看起来都很好,而且您还没有打开它,那么启用健康检查日志记录:
gcloud compute health-checks update PROTOCOL HEALTH_CHECK_NAME \
--enable-logging...and对日志进行调查,以查看故障是否存在模式(例如,特定节点、时间等):
logName="projects/PROJECT_ID/logs/compute.googleapis.com%2Fhealthchecks"https://serverfault.com/questions/1060233
复制相似问题