谷歌云又瘫痪:因新功能 bug 被触发

由于谷歌云平台出现了问题,昨天多个热门在线服务遇到了停机或响应缓慢的现象。经谷歌确认,它的许多工具出现了问题,而Discord、Spotify和Snapchat等知名网站和服务依赖这些工具才能正常运行。

谷歌云平台的状态页面上的一则通告声称:“我们正在调查谷歌云全球负载均衡系统(Global Loadbalancers)的问题,该系统为许多服务返回502出错消息,包括AppEngine、Stackdriver和Dialogflow等服务,此外客户全球负载均衡系统也出了问题。”

一些受到影响的第三方服务包括下列:

  • Snapchat
  • Pokémon Go
  • Faceit
  • Discord
  • Spotify

今日谷歌云对外公布了调查结果,根本原因如下:

谷歌的全球负载均衡系统基于谷歌前端服务(GFE)的双层架构。GFE的第一层尽量靠近用户来响应请求,以便在建立连接的过程中为用户最大限度地提高性能。这些GFE将请求路由到GFE的第二层,而这第二层的位置靠近请求所使用的服务。这种类型的架构让客户得以在世界上任何地方都拥有低延迟连接,同时又可以充分利用谷歌的全球网络为后端处理请求,无论客户在哪个地区。

GFE开发团队当时正在为GFE添加一些功能,以提高安全性和性能。这些功能被添加到了第二层GFE代码库,但尚未投入使用。其中一个功能含有一个会导致GFE重启的错误(bug);不过无论在测试阶段,还是在初始部署阶段,工作人员都没有发现这个错误。事件开始时,生产环境的一个配置变更间歇性地触发了该错误,结果导致受影响的GFE一再重启。由于重启不是瞬时的,可用的第二层GFE容量因此减少。虽然一些请求得到了正确响应,但GFE重新上线时,其他请求却由于容量暂时不足而被中断(导致连接重置)或被拒绝。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏晨星先生的自留地

ZIP压缩爆破小脚本

18430
来自专栏刘笑江的专栏

iOS App 启动必 crash 监控

23430
来自专栏吴伟祥

Jmeter性能报告页面生成 原

      PV (Page View)         页面浏览量         用户每一次对网站中的每个页面访问均被记录1次。

7910
来自专栏木子昭的博客

你的照片安全么?

照片元信息 我们平时拍摄的图片,不仅包含了可见的像素信息,还包含了我们看不到的隐藏信息(元信息),而这些元信息,往往会不经意间泄露我们的隐私. ---- ...

41470
来自专栏我和PYTHON有个约会

Django来敲门~第一部分【1.概述】

python程序web项目开发,是非常重要的一部分,Python为基础的web项目开发的框架有很多,django无疑是最强大web框架之一,也是我们必须掌握的框...

10630
来自专栏程序人生

从开发者的角度看:打包和部署

如今的互联网软件越来越碎片化(micro services),Queue无处不在,服务依赖越来越多,使得软件功能的开发,到软件功能的部署,中间有很长的一段路。这...

37190
来自专栏安恒信息

运维安全中的“福尔摩斯”

引 言 随着互联网技术的发展,信息的交互越来越频繁,随之而来信息的安全、运维操作的合规性等等问题越来越多,其对于企业内部管理来说要求越来越高。2015年某某网...

38770
来自专栏大数据和云计算技术

大数据仓库-kudu

数据仓库里面存储引擎是非常重要的,存储引擎的好坏,基本决定了整个数仓的基础。 kudu目标 cloudera公司最近发布了一个kudu存储引擎。按照cloud...

55470
来自专栏刘君君

Rest Notes-基于网络应用的架构

19780
来自专栏ATYUN订阅号

【科技】Google推出首个Android P开发者预览版

AiTechYun 编辑:nanan Google 昨日发布了首个Android P开发者预览版,现在可以在developer.android.com下载。预览...

38260

扫码关注云+社区

领取腾讯云代金券