首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

谷歌云故障14个小时,系“队列突变大量积压”引起

鞭牛士 4月6日消息,据云头条消息,发生在3月26日的那次故障导致谷歌在多个地区的云服务瘫痪,包括Dataflow、Big Query、DialogFlow、Kubernetes Engine、Cloud Firestore、App Engine和Cloud Console。这些系统受影响的时间总共长达14个小时。

据谷歌最近发布的一项内部调查显示,故障是该公司的缓存服务器内存不足导致的。调查称:“触发这起事件的诱因是批量更新组成员(group membership ),结果修改后权限的数量增加到了超出预期的程度,因而生成了大量积压的队列突变(queued mutation)需要实时生效。”

“由于缓存服务器存在一个潜在的问题,处理积压的队列突变的能力下降,这导致缓存服务器内存不足;而这反过来又导致对IAM的请求超时中断。为了缓解内存使用量高企而执行的紧急部署措施在各个地区更是短暂加剧了这个问题。”

谷歌通过在缓存服务器中安装更多的内存并重新启动服务器解决了该问题。但是到这个时候,已积累了一大堆过时的数据,这导致了进一步的问题,系统工程师不得不另花费几个小时来处理。第二天早上05点55分,系统恢复正常运行。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200406A04QCX00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券