云宕机_腾讯云宕机_云服务宕机 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

【云顾问-混沌】服务宕机灾难预防手段：混沌工程

Salesforce 是领先的云软件应用程序，全球约15万组织数百万员工使用。提供客户关系管理全套服务，包括联系人管理、产品目录、订单管理、机会管理和销售管理等。无需额外投入维护、储存和管理记录，所有数据存储在上面。

01

公有云宕机如何赔偿用户损失？

11月19日凌晨，微软Azure云服务大面积宕机，在8月19日已有宕机先例的情况下，这次的事件让公众对云安全的关注再次攀升到了顶点。随后，11月24日，微软在向云服务用户发出的公开信中表示，将会通过SLA对Azure云宕机中相关的受损企业进行相应赔偿。一直以来，公有云宕机后如何向用户赔付都是一个困扰云服务供应商的难题。首先，云服务厂商不可能保证自己的云服务100%无宕机，即使是号称永不宕机的大型机也同样存在风险；其次，用户的损失难以估量，关键系统与非关键系统、不同行业、不同企业规模造成的损失大小也不同，难

您找到你想要的搜索结果了吗？

是的

没有找到

2018年的十大云宕机事件，你中枪没？

无论原因如何或最终影响范围的有多大，一旦出现宕机，企业对公有云的信心都会出现动摇。

03

微软云服务宕机超24小时企业关键业务如何避免被“拖累”

提起“宕机”这个词，估计大多数企业管理层，技术人员都不会陌生。8月，微软的公有云服务以及Office365等软件，因为澳大利亚的极端天气，备用方案未能及时响应，导致澳洲用户出现了超过24小时的云服务“暂停”。

02

云计算“地段”投资去哪儿?

随着云计算技术越来越炙手可热，云计算市场的争夺战也日渐激烈，谷歌、亚马逊、微软等全球几大云计算基础设施服务商之间的竞争已经日趋白热化，在价格战血拼之余，人们往往忽视了云计算市场竞争的一个至关重要的指标：地段，也就是云数据中心的地理分布，说白了，还千万别拿云计算不当房地产。地段为何如此重要云计算数据中心的地理位置和分布的重要性主要体现在以下三点：冗余性：与单一服务器相比，云计算中心很难宕机，但遭遭遇电力故障、软件缺陷或极端天气时，云计算中心也会宕机，也就是所谓的云宕机，根据IT经理网之前的报道，云宕机每

09

【云顾问-混沌】Kafka Broker开小差了～

现如今，Kafka 作为一个高性能、高可靠性、分布式的消息队列系统，广泛地被应用于大规模互联网服务中，如 Tencent、Facebook、LinkedIn、Netflix、Airbnb 等知名公司。然而，在大规模的分布式系统中，服务的不可预测性、复杂性和耦合性经常会导致一些不可预测的故障事件。当Kafka Broker节点宕机时，可能会出现以下故障：

01

混合云演习常见案例

当检测到物理线路1发生故障，系统自动将流量切换至物理线路2，保证业务正常运行。故障修复后，流量自动切回。

07

十大宕机名场面，震惊！

互联网技术发展到了 2022 年，理论上来说是可以做到“永不宕机”的。但过去的 2021 年，宕机事故看起来貌似也不少。

03

这十个事件，让“永不宕机”变成了一个笑话

互联网技术发展到了 2022 年，理论上来说是可以做到“永不宕机”的。但过去的 2021 年，宕机事故看起来一点也没有减少。

04

为什么服务器的宕机一般都发生在凌晨使用率最低的时候？

计科专业从事嵌入式软件开发多年，最近因为公司需要搞后台研发，经常选择升级的时机放在凌晨，而且大型的数据处理也是放在这个时间段内，经常发生的服务器宕机也是在这个时段。都是在用户使用少的时候开始折腾，折腾的次数多也就容易出现服务器问题。由于做的是物联网设备，在工作中遇到的宕机主要有这么几种情况，对大量数据的操作导致CPU占比在一段时间内骤增从而导致数据接收模块出问题，导致系统监控出现问题，很多设备信息检测不到了。

04

1 个月崩 3 次！盘点一下 2021 年的 10 个宕机名场面

点击上方“芋道源码”，选择“设为星标” 管她前浪，还是后浪？能浪的浪，才是好浪！每天 10:33 更新文章，每天掉亿点点头发... 源码精品专栏原创 | Java 2021 超神之路，很肝~ 中文详细注释的开源项目 RPC 框架 Dubbo 源码解析网络应用框架 Netty 源码解析消息中间件 RocketMQ 源码解析数据库中间件 Sharding-JDBC 和 MyCAT 源码解析作业调度中间件 Elastic-Job 源码解析分布式事务中间件 TCC-Transaction

05

腾讯云联手浪潮建立全新合作模式

4月15日，在浪潮举办的IPF智算·向新大会上，腾讯云表示，为面对政企数字化升级加速带来的算力挑战，腾讯云与浪潮建立全新合作模式，去应对新的产业发展变局。

02

哦豁，宕机了...

今天看到 InfoQ 发布了一篇关于去年的宕机事件的整理文章，从 B 站到一码通，从国内到国外都有代表性事件。

06

滴滴打车借助腾讯云打下1.5亿用户"江山"

最近滴滴打车的联合创始人兼CTO张博接受媒体采访，首次谈到腾讯云为滴滴提供云计算、大数据，在技术型人才层面给滴滴的帮助和改变。包括滴滴在几次补贴大战中，面对大流量和高并发的状况曾几度濒临宕机，在腾讯云

08

谷歌云删库宕机一周：千亿基金数据和备份被删光，技术负责人当场被裁，谷歌最后只说一句 Sorry？

Google Cloud 此番闹出“史无前例的错误配置”，使得金融服务提供商的私有云账户遭到删除，最终导致超 50 万 UniSuper 基金会员在一周时间中无法访问自己的退休金账户。

01

云计算宕机时我们该何去何从

导语：市面上主流的云服务提供商都强调自己服务具有高可靠性，然而商业宣传总是美好的，但企业有自己的一套替补方案不失为一个好主意。如果你觉得最近云服务出现问题的消息不断传出，那么恭喜你还没有被云计算冲昏头脑。上个月很多用户都受到了云服务宕机的波及。类似的宕机事件以后可能会频繁发生，那我们不如先来看看最近的宕机事件以避免它发生在自己头上。亚马逊AWS 9月20日亚马逊AWS宕机，影响了相当多的网站和应用长达五个小时的时间。最先出问题的是亚马逊DynamoDB服务，它随即又影响了亚马逊的其他服务，所以波及到了很

故障频发的公有云，还能不能用？

本月亚马逊AWS、阿里云、微软Azure接连出现大面积故障，造成用户无法访问在线服务、不能正常使用数据等问题，严重影响了用户的业务，让不少正在使用或准备尝试公有云的企业，信心再次发生动摇。

01

企业云: 公有云厂商不靠谱，企业级应用何去何从？

公有云厂商的黄历上今年注定不是一个太平的年份。八月份有四个国际级云计算大厂就宕机了六次(AWS、iCloud、Microsoft和Google)，有人正在网上买电视机突然买不成了，有人正在看网络电视突

06

软硬一体化成趋势，腾讯云打造云计算基础设施

在数据大爆发的时代背景下，云计算承载的业务规模呈现指数级增长，软件和硬件的结合成为刚需。未来，软硬件一体化技术会进一步发展，为用户提供更强壮的基础设施平台，提升云计算的性能、提高资源利用率，最终为用户提供稳定、更具性价比的服务。

02

一文详解 Nacos 高可用特性

服务注册发现是一个经久不衰的话题，Dubbo 早期开源时默认的注册中心 Zookeeper 最早进入人们的视线，并且在很长一段时间里，人们将注册中心和 Zookeeper 划上了等号，可能 Zookeeper 的设计者都没有想到这款产品对微服务领域造成了如此深厚的影响，直到 SpringCloud 开始流行，其自带的 Eureka 进入了人们的视野，人们这才意识到原来注册中心还可以有其他的选择。再到后来，热衷于开源的阿里把目光也聚焦在了注册中心这个领域，Nacos 横空出世。

03

应对云时代的“黑天鹅”，用户如何选择风险可控的云服务？丨科技云·资讯

在这个无“云”不欢的时代，既然“黑天鹅”不可避免，当其出现之时，如何才能提高云服务风险管控水平，将损失降到最低？

02

宕机的那些事儿（r12笔记第44天）

DBA干了这么多年，一直以来有一个疑惑，那就是从半夜的电话中吵醒时，几乎清一色都是宕机类问题，每次我就忍不住想喊，大早上宕机，让不让人睡觉了。但是抱怨归抱怨，活得干，坑还是得补。这话对于很多DBA来说是感同身受，谁还没大半夜被电脑吵醒过，如果没有，你这DBA生活还真是滋润啊。当然随着工作的经历增长，我想明白了几件事情，也感谢这些难忘的日日夜夜。宕机能够刷到存在感第一个是数据库宕机从技术角度之外有时候还是有一些作用的，那就是很多时候宕机之后大家会深刻感受到DBA的存在，而平素系统稳定了若干

09

选择云原生可观测性工具的四个因素

翻译自 Top 4 Factors for Cloud Native Observability Tool Selection 。

01

B站崩了：事情不大，影响不小

作者 | Tina 7 月 13 日晚间，B 站因无法访问登上热搜榜。昨天深夜，B 站出现访问故障，无法打开，页面提示加载失败。除了网站和移动端显示加载错误之外，B 站出品的轻视频、剪辑软件必剪等均无法打开，显示页面加载出错。一个网站的短暂崩溃，居然引起这么大的声响？公司 2020 年第三季度财报显示，去年 8 月，B 站的月活用户突破 2 亿。最新数据则显示，B 站月活用户为 2.23 亿，其中 35 岁及以下的月活用户比重超过 86%。 B 站故障之后，消息迅速扩散，“B 站崩了”冲上了各种热

02

2021年腾讯研发大数据报告

2022年03月21日，2021年腾讯研发大数据报告出炉。我们一起来看看鹅厂在技术领域给社会贡献了哪些工具和风向标。

04

回顾2019 年5个重大宕机事件

任何时候发生网络服务中断，都会对全球业务造成极大的影响和破坏，而且还会导致收入和声誉的重大损失。尽管应用程序交付依赖于许多网络服务提供商（ISP），但它也越来越依赖于面向网络的服务的大型且复杂的生态系统，例如CDN、DNS、DDoS缓解和公共云。这些服务共同为用户提供卓越的数字体验，即使是短暂的中断也会产生重大影响。

01

一文详解 Nacos 高可用特性

作者 | kiritomoe 来源 | https://mp.weixin.qq.com/s/aOIuqop4jjOyeckNOfTirg‍ 前言服务注册发现是一个经久不衰的话题，Dubbo 早期开源时默认的注册中心 Zookeeper 最早进入人们的视线，并且在很长一段时间里，人们将注册中心和 Zookeeper 划上了等号，可能 Zookeeper 的设计者都没有想到这款产品对微服务领域造成了如此深厚的影响，直到 SpringCloud 开始流行，其自带的 Eureka 进入了人们的视野，人们这才意

02

K8S 生态周报| 2019-04-28~2019-05-05

> 「K8S 生态周报」内容主要包含我所接触到的 K8S 生态相关的每周值得推荐的一些信息。欢迎订阅知乎专栏「k8s生态」。

05

谷歌和甲骨文服务器在英国“热崩了”，有人“掏山”、有人“沉海”，数据中心该如何应对高温挑战？

作者 | 李冬梅随着夏季“三伏天”的到来，所有企业都会面临 IT 系统运转温度上升的问题，气温越高的地区，服务器所面临的因过热导致的宕机风险就越大。对于中小型企业服务器来说，过热可能是一个大问题，因为过热的服务器通常会消耗更多的能源，更频繁地发生故障并且更有可能崩溃。对于大多数公司而言，服务器崩溃可能意味着数小时或数天的停机时间、员工生产力低下、巨大的压力甚至是不可估量的经济损失。 1 因天气过热，全球宕机事件频发 7 月 19 日，当英国东部的水银温度达到 40.3C (104.5F) 时，此

01

聊聊如何利用redis实现多级缓存同步

前阵子参加业务部门的技术方案评审，故事的背景是这样：业务部门上线一个专为公司高管使用的系统。这个系统技术架构形如下图

02

腾讯操作系统的创新之路

“缺芯少魂”一直是我国信息产业发展的一大难题，而“少魂”就是指操作系统等基础软件薄弱。“拿来主义”这种传统解决方式在给我们带来便利的同时，也桎梏了我们的创新。腾讯的操作系统研发也走过了从拿来主义到创新研发的道路。云计算时代，操作系统向下适配多元化硬件，向上支撑多样化产品，其重要性不言而喻。让我们一起了解下腾讯操作系统的创新之路。

02

ChatGPT 宕机超 12 小时！网友：没了你我的工作可咋整...

前几天刚更大家聊了关于高可用的一篇文章：不存在百分百的安全，该给你的系统上个保险了，结果就在昨天下午开始，收到有不少网友反馈ChatGPT不能用了：之后在国内外的社交平台都出现了各种反馈据相关媒体报道，此次ChatGPT的宕机持续了超过12个小时。在解决了了这一事故之后，官方给出了完整的事故报告：报告地址：https://status.openai.com/incidents/jq9232rcmktd 这次的宕机，让我想到之前有次B站的宕机，一直以为身边用的人不多，尤其是ChatGPT！但是，经

08

三个时代，一个未来 | 腾讯操作系统TencentOS创新之路

网络信息产业中，芯片被比喻为心脏，操作系统被认为是计算机的灵魂。二十年来，国内信息产业始终在“缺芯少魂”的困境中，中国在高端芯片行业缺乏自主创新能力，国产操作系统自研创新，不仅事关信息技术核心竞争力，更关乎国家信息安全。

09

云疲劳：为什么企业从云端迁出应用？

尽管公有云在所有行业中似乎都很火，但是值得注意的是，近期有组织已经将其关键业务工作负载和应用从公有云中迁出到内部或私有云中部署。 Enterprise Strategy Group近期的调查发现，超过

07

云技术如何改变业务灾难恢复计划？

尽管业务灾难恢复计划转向云计算，但传统灾难恢复(DR)的关键要素，如位置和测试仍然很重要。在过去几年中，人们已经逐渐放弃了一种被动的业务恢复计划，那就是采用磁带存储现场数据，并通过磁带数据将数据恢复到新的计算设备，这转变为一种更加活跃的模型。云备份是转型过程中的第一步，内部部署和站外磁带使得在线云存储成为可能。简单化的云备份方法使人们陷入了在哪里恢复的困境。人们仍然需要找到可以正常运行，并能够获取数据给他们的应用程序。由于全球互联网(WAN)速度仍然远远低于局域网(LAN)性能，因此将数据上传到恢

06

突发！代码托管平台“码云”崩溃

9月14日下午15:30起，疑似代码托管网站码云遭遇宕机。微博平台用户讨论“码云挂了”的讨论逐渐热门。

02

由于Redis后门漏洞导致服务器被注入挖矿脚本解决过程

最后经过百度发现newinit.sh是一种挖矿脚本，是通过6379端口接入走后门被注入进来的，说到6379大家肯定很熟悉，没错这个就是Redis的默认端口，庆幸的是还好这个木马不是很深入，如果入侵的黑客是大神直接把木马深入到内核那这得重装系统了，经过这个事件以后我奉劝大家2个事情

02

RocketMQ与Kafka对比（18项差异）

转自：https://github.com/alibaba/RocketMQ/wiki/rmq_vs_kafka 淘宝内部的交易系统使用了淘宝自主研发的Notify消息中间件，使用MySQL作为消息存储媒介，可完全水平扩容，为了进一步降低成本，我们认为存储部分可以进一步优化，2011年初，Linkin开源了Kafka这个优秀的消息中间件，淘宝中间件团队在对Kafka做过充分Review之后，Kafka无限消息堆积，高效的持久化速度吸引了我们，但是同时发现这个消息系统主要定位于日志传输，对于使用在淘宝交易、订

07

老大说：谁再用redis 的 keys命令，立刻给我走人

#执行了一条 keys xxxxx* 命令，令数据库宕机了，怪不得技术总监发狠话：谁要是敢用 keys 命令，直接收拾包袱走人。接下来我们看看是什么回事:

03

大数据领域里的独行侠-Dynamo风格数据库

上篇文章聊了下 Hbase ，这篇聊一下 Hbase 的“孪生兄弟”Dynamo风格的数据库，比如 Riak 、Cassandra。在大数据领域混的人大概都知道谷歌发表的 BigTable 的论文，但是对亚马逊的 Dynamo 论文就不太清楚了。当然这也有可能是因为其开源实现 Cassandra 不怎么出名有关。

01

云端崩溃的严重后果（Internet）

服务中断检测网站Downdetector于11月19日报告称，许多网站和应用的主干亚马逊网络服务（AWS）互联网基础设施服务出现了问题。

01

谷歌多项服务全球大规模宕机：涵盖 YouTube、Gmail 等

本周日，谷歌在全球范围内遭遇了大规模中断，包括 Gmail、YouTube 和 Google Drive 在内基于谷歌云架构服务的诸多谷歌服务均受到影响。本次宕机于北京时间 6 月 3 日凌晨 2 点 58 分开始，用户访问谷歌服务出现各种错误提醒，并且阻止用户访问电子邮件、上传 YouTube 视频等等。

02

单机模式与集群模式的区别？

集群模式：一般指的是通过负载均衡的组件将两台或两台以上搭建成一个集群方式，通过轮训或权重方式进行分配到具体的机器;

04

永洪MPP集市中各节点的详解

在永洪数据集市分为本地集市（单机版数据集市）和MPP集市（多机版数据集市）。如果用户数据量在GB级别，并且单机服务器配置还可以，采用本地集市可以达到数据加速的功能。如果用户数据在TB级别，就可以采用MPP云结构来支撑秒级的数据分析响应速度。

05

六问 WeTest 手游测试团队：如何助《梦幻诛仙手游》诛灭外挂

03

谈数据泄露、勒索和云故障 | FB甲方群话题讨论

注：上期精彩内容请点击：加密流量怎么做安全检测 | FreeBuf甲方群话题讨论

02

RabbitMQ跨机房迁移数据零丢失

公司以前大部分服务在私有云上，因使用有一段时间了，机器比较老化再加上运维成本高，计划将整个机房上云，因负责中间件一块，所以最近将RabbitMQ顺利地迁移到云上。

03

Kubernetes集群高可用&备份还原概述 | 直播回顾

关注腾讯云大学，了解行业最新技术动态腾讯云大学知识分享月已经开幕了为了让大家沉淀知识，我们邀请了杜杨浩讲师将直播内容整理成了文章话不多说让我们再来回顾一下课程内容吧（课程精彩片段，戳阅读原文观看完整回放）直播回顾前言大家好，我叫杜杨浩，很高兴今天在这里给大家分享一下Kubernetes集群高可用&备份还原方案。无论是高可用还是备份还原都是生产环境所必须具备的特性，本次分享将依次介绍我在实现这些特性过程中遇到的问题，以及相应的思考和解决方案。 Kubernetes高

02

避免在云迁移过程中宕机

在公共云迁移期间，IT团队需要采取谨慎的步骤，以避免听到“系统宕机”这种可怕的提示。随着组织迁移到基于云计算的基础设施，IT团队需要在迁移过程中保持可用性。但是，考虑到所有复杂性，在云计算迁移过程中，防止宕机或最小化停机时间并不容易。云计算团队需要考虑数据不一致，监控不同的软件版本，并检查其网络连接是否成功。如果企业的应用程序崩溃，业务往往会停止。虽然精确的指标因企业和应用的情况而异，但调研机构Gartner公司在2014年发现，网络停机时间平均每分钟的损失为5,600美元。停机时间的高昂成本是企

造价330亿，谷歌数据中心爆炸，致3人受伤，谷歌搜索出现全球性宕机

综合美媒消息，当地时间8日中午，位于美国爱荷华州的谷歌数据中心发生爆炸，造成3人受伤，目前已被送医。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭