首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

故障没有因,别再找了

在《故障复盘的简洁框架-黄金三问》这篇文章里,我把故障原因分为了两类:触发原因和深层原因。 这里我并没有提到因或根本原因,理由就是我们原本所认为的因可能往往不止一个,可能会有多个。...我举个比较容易理解的例子: 比如我们有一台服务器宕机了,上面跑的的MySQL服务也挂了,影响了上层业务访问,花了30分钟才解决,被定性为故障。 那这个故障因是什么呢?...有的人可能会说是服务器宕机引起的,服务器问题是因。 有人会说上层数据库没做高可用,数据库问题是因。 也有人会说业务层面没做功能降级,到时业务不可用,业务架构问题是因。...深层原因3:MySQL的主从切换不生效,是因为不同品牌的服务器有特殊配置导致,这个要定期做切换演练,同时每新增一个品牌服务器,要做适配性验证。...其实我们仔细分析下,上面只要有其中一个环节能够做到位,都会大大降低故障的影响度,哪个是因其实已经没那么重要了。

52930

中国不是没有服务器吗?《流浪地球2》的服务器怎么在北京?

就连我们程序员也能在里面找到服务器、人工智能这些熟悉的东西。 这电影中有一个重要的任务,就是要重启全球互联网,来联动全世界的行星发动机。这么重要的东西为啥不用专网通信,而是要用互联网?...好吧,不管这个问题,说回电影,重启全球互联网的一个重要操作就是重启服务器,分别位于中国北京、日本东京、美国杜勒斯。...看到这三个城市名,我又来了疑问:我记得全世界共有13个服务器(注意不是13台物理服务器,不算anycast,也不算镜像),这里面没有中国的份吧?...推荐一个B站UP主做的视频,可以帮助大家了解这方面的东西: 视频地址:https://www.bilibili.com/video/BV1i14y157YV 除了这个服务器的问题,还有一个问题,看完电影我一直也没想明白...那空间站故障了,没电了,或者存储满了,系统挂了咋办? 别的不说,就随便问一个程序员,你的程序要上线一直跑,没有人盯着你放心吗? 可能我有些较真了,不就是个电影吗,对这个问题大家怎么看?

2K20
您找到你想要的搜索结果了吗?
是的
没有找到

服务器故障邮件报警

说到服务器硬件监测,用得最多的自然是Zabbix和prometheus,可是对于一般用户来说,部署要求比较高,而且也没有必要。...只是监测服务器硬件故障,并且发生问题的时候,以邮件形式告警,那么服务器自带的功能就足以。 比如戴尔服务器的idrac,配置硬件故障的邮件告警就非常简单。...如上图所示,首先填写邮件发送服务器的地址,其次就是填写发件人邮件地址,然后就是SMTP端口号,采用SSL协议的话,端口号就填写465;最后填写用户名和密码,就是发件人的邮件账号和密码。...收件人邮件地址,当然也需要填写,不然故障报给谁呢?然后可以“发送”测试邮件,一般都是秒收,如果没收到,就检查SMTP配置。...我比较关注系统运行状况和存储,尤其是存储,重要的数据都在硬盘里面呢,其他硬件故障,相对来说,没那么重要,电源坏了,可以换,内存坏个一两条,也无伤大雅。硬盘要是坏了,那就损失大了。

19330

服务器硬盘故障预测实践

理论上服役时间越长的服务器发生故障的几率也将越大,从腾讯全网服务器的统计结果也表明服务器老龄化的加剧,故障概率会加速上升,特别是使用年份超过4年的设备故障率将出现陡升的情况,显而易见高故障率的老龄化设备将对现网业务造成巨大的影响...我们的服务器使用年限超过5年后,硬盘故障率都是非常高。 ? 于是乎,想快速有效的降低服务器故障的影响,核心就在于降低硬盘故障的影响。...或许这些服务器配置信息能给出一些统计结果,我们想要的是即将故障的硬盘,而不是这些差异性不大的各个集合的整体故障率。...为了支持我们提供了运营模型设置,主要包括服务器类型,上架年限,服务器健康度,业务模块,预测比,坏块比,性能参数等,系统会根据这个设置表,对满足其中任意一条规则的预测故障盘,自动发起故障流程。...成功预测的硬盘故障数量,粗略估算已覆盖SATA硬盘故障数的50%左右,进而促使5年以上服务器对业务影响的硬件整体故障率也下降了0.5%。

13.1K90

为什么《流浪地球2》中服务器如此重要?从服务器与域名解析聊到内网穿透

那么,什么是服务器,启动互联网前真的必须先启动服务器吗?又为什么要同时启动三台服务器呢?本文,我们就来聊一聊。 2....服务器与域名解析 所谓的“服务器”,全称是域名服务器,说起域名服务器,我们首先想到的肯定是 DNS 服务器,此前我们介绍了浏览器的工作流程时有过介绍: 网络是怎样连接的(一) -- 浏览器是如何工作的...如图所示: 由此可见,服务器对于互联网域名服务来说是非常重要的,就目前 IPv4 的域名解析来说,全球共有 13 台服务器,是以 1 主 12 从的架构来设计的,这一台主根服务器位于,剩余 12...另一方面,全球有 1000 台备份有服务器全部数据的服务器,可以在特殊情况下替代服务器来使用。...印度、俄罗斯、德国、法国等全球16个国家完成25台IPv6服务器架设,其中中国有一台主根服务器与3台辅服务器

3.1K40

听说DNS服务器只有13台,科学吗?

本机是轻松了,然而最近的DNS服务器(有可能是你的家用路由器)却需要忙活起来了,它需要采用迭代查询的方式,最坏的情况下,它需要: step2: 查询域名服务器 step3: 拿到域名服务器返回的一级域名...DNS的IPV4域只有13个吗? 确实是的。 问题又来了。 为什么是13个IP,不能再加吗? 这个,单纯是历史原因了。...比如,很久以前看电视的时候,有位砖家提到"全球DNS服务器只有13台,其中x台部署在漂亮国,只要它们切断访问,那我们的网络就会受影响balabala"。 但其实,13个IP不代表只有13台服务器。...所以,就算其他国家的域名服务器挂了,也不会对我们有什么影响,事实上国内已经有非常多的镜像服务器了,稳得很。...• 虽然域只有13个IP,但不代表只有13台服务器,准确的说,应该是十三组服务器,每组服务器都共用同一个IP,国内已经有非常多的镜像服务器,利用任播技术,只要能就近访问到其中一台就行了。

1.1K40

如何理解域名服务器?它具有什么作用?

image.png 一、如何理解域名服务器?...提起它的时候,很多普通网友会感到陌生,这是因为它并不是人们经常接触到的词汇,它可以被看成互联网运作和发展的基石,可以举个例子来进行理解,比如域名系统是互联网的神经,那么服务器就可以被看成神经中枢,由此可见域名与服务器...如果域名服务器瘫痪的话,则用户就不能够正常访问与浏览网站,所以它在互联网世界中,扮演了不可或缺的角色,也就是说人们之所以能够顺畅浏览一些网站,以及在网站里面下载学习资源和工作资料,这些过程都与服务器具有相关联系...二、域名服务器具有什么作用?...它对网络安全以及网络运行稳定等起到了不可忽视的作用,相信了解互联网知识的人们,他们都会对顶级域名感到熟悉,服务器会完成这些顶级域名的解析过程,从而为网友提供相应服务。 怎样理解域名服务器

2.8K30

Linux服务器故障排查基本方案

服务器架构 服务器系统为Centos7 首先需要知晓系统的对外的架构 一般架构: 1.域名--->云服务器(ECS) 2.域名--->CDN--->云服务器(OSS) 3.域名--->CDN---...>云服务器ECS+数据库RDS+缓存Redis 4.域名--->CDN--->负载均衡--->云服务器ECS+数据库RDS(主从)+缓存Redis 5.域名--->CDN-->WAF防火墙--->负载均衡...--->云服务器ECS+数据库RDS(主从)+缓存Redis 再根据实际情况出现的问题,一步步排查。...客服、市场同事等钉钉、电话报告出现的问题 二、快速定位问题 网络带宽(CDN是否异常) 域名是否解析到源站 登录XXX云CDN后台查看相应流量 负载均衡 检查负载均衡是否正常运行,是否流量异常 应用层服务器...ECS服务器负载是否正常、cpu、内存负载是否过高,硬盘使用率是否达到100%等 缓存服务器 redis服务器负载是否正常、内存使用率如何 数据库服务器 数据库连接数是否正常 列出当前用户的所有连接信息

59910

什么是 DNS 服务器?真的只有13个吗?

DNS 服务器是 DNS 系统中最高层的服务器,它是整个 DNS 域名解析的起始点。本文将介绍 DNS 服务器的作用、组织结构以及真实数量是否只有13个。...图片DNS 服务器的作用DNS 服务器是 DNS 系统的起点,它存储了顶级域名服务器的信息,包括通用顶级域(gTLD)和国家代码顶级域(ccTLD)的域名服务器地址。...服务器由 ICANN(互联网名称与数字地址分配机构)和其他相关组织共同管理。根据 DNS 服务器的名称,它们被标识为字母 A 到 M 的13个字母,每个字母对应一个服务器。...每个字母对应的服务器通常由不同的组织负责运营。图片真的只有13个 DNS 服务器吗?实际上,DNS 服务器的数量远不止13个。13个字母只是一个符号性的表示方式,用于方便标识这些服务器的名称。...每个字母代表一个名为“根区域”的逻辑区域,而每个根区域都由多个实际的服务器组成,以提供冗余和高可用性。每个根区域都有多个服务器,它们被称为“服务器实例”或“服务器镜像”。

99420

AIOps之因分析(一):基于图的微服务trace分析与故障诊断

当微服务架构出现系统性风险时,排查风险和故障诊断相比于传统的项目会更加困难。 微服务trace分析,可以用来排查风险和诊断故障。...基于微服务trace,可分析服务间的依赖关系,并用于定位故障因。...GMTA Explorer在GMTA的基础之上提供了(静态trace & 动态trace的)可视化、调用链对比视图以及错误链查询等功能,辅助用户定位异常因。...断链修复则主要trace没有节点或trace有多个节点的场景。...3.2 GMTA帮助SRE诊断故障的案例 SRE在GMTA Explorer平台是看到如下样式,成功定位到故障源于服务c,最终排查发现是服务c最近一次发布引入了故障代码。

3.2K22

为什么全球只有13组域名服务器

域名服务器是域名解析系统(DNS)中最为顶级的域名服务器,它们负责管理顶级域的权威域名服务器地址。作为互联网基础设施的重要部分,所有域名的解析操作均离不开它们。...下面我们将从 DNS 协议实现的角度分析为什么全球只有13组域名服务器。...13组域名服务器的信息 image.png 其中,13组域名服务器以英文字母 a 到 m 顺序命名,域名格式为“a~m.root-servers.net”,如“b.root-servers.net”...12+5+(31+(15*(N-1))+16*N,再根据前述 DNS 大小限制不超过512字节的要求,可以得 N 不超过15组,再加上早期设计的时候考虑到预留一些 buffer 于是就有了现在全球13组域名服务器的结果...通过问题“全球为什么只有13台 DNS 服务器?”的讨论我们了解了 DNS 解析协议,下面我们将自己的动手搭建 DNS 服务器

5.8K70

AD RMS高可用(三)部署RMS群集服务器

1) 在rms服务器上点击“添加角色和功能”,开始rms组件的添加 ? 2) 选择“基于角色或基于功能安装”,点击”下一步“。 ? 3) 选择第一台rms服务,点击”下一步“。 ?...7) 选择“Active Director权限管理服务器”。 ? 8) 添加iis角色 ? 9) 保持默认勾选,点击”下一步“ ? 10) 确认无误,点击”安装“ ? 11) 等待安装完成。 ?...13) 选择”创建新的AD RMS群集“ ? 14) 输入sql名称,点击”列表“,选择”Defaultinstance“ ?...17) 选择“使用CSP密钥存储”,该模式比使用ad rms集中管理更安全,因为它的密钥以加密方式存放,不会因忘记群集密码而其他成员服务器就不能加入该rms群集的。 ?...“AD RMS高可用(二)为rms群集服务器申请证书”中的证书名称要跟这里名称匹配。 ? 21) 选择加密的证书。 ? 22) 保持默认,点“击下一步”。 ?

1.8K20

【鹅厂网事】服务器硬盘故障预测实践

理论上服役时间越长的服务器发生故障的几率也将越大,从腾讯全网服务器的统计结果也表明服务器老龄化的加剧,故障概率会加速上升,特别是使用年份超过4年的设备故障率将出现陡升的情况,显而易见高故障率的老龄化设备将对现网业务造成巨大的影响...我们的服务器使用年限超过5年后,硬盘故障率都是非常高。 于是乎,想快速有效的降低服务器故障的影响,核心就在于降低硬盘故障的影响。...或许这些服务器配置信息能给出一些统计结果,我们想要的是即将故障的硬盘,而不是这些差异性不大的各个集合的整体故障率。...为了支持我们提供了运营模型设置,主要包括服务器类型,上架年限,服务器健康度,业务模块,预测比,坏块比,性能参数等,系统会根据这个设置表,对满足其中任意一条规则的预测故障盘,自动发起故障流程。...成功预测的硬盘故障数量,粗略估算已覆盖SATA硬盘故障数的50%左右,进而促使5年以上服务器对业务影响的硬件整体故障率也下降了0.5%。

1.3K10

服务器内存故障预测居然可以这样做!

​ 作者:vivo 互联网服务器团队- Hao Chan随着互联网业务的快速发展,基础设施的可用性也越来越受到业界的关注。内存发生故障故障率高、频次多、影响大,这些对于上层业务而言都是不能接受的。...然而硬件故障一直以来都是一种普遍存在的现象,由于硬件故障而造成的损失往往是巨大的。在服务器各个部件中,除硬盘故障以外,内存故障是第二大常见的硬件故障类型。...并且服务器内存的数量众多,vivo的内存数量达到40w+条,内存故障造成的最严重的后果是会直接导致系统崩溃,服务器宕机,这些对于上层业务而言都是不能接受的。...EDAC在vivo服务器全量上线过程以来,累计提前发现450+ case的内存CE问题,服务器的宕机数量明显减少。...对满足报修标准服务器业务进行迁移,并更换相应的内存条,避免因服务器突然宕机导致业务的不稳定,甚至因此造成的损失。

17.4K20
领券