首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

故障没有因,别再找了

在《故障复盘的简洁框架-黄金三问》这篇文章里,我把故障原因分为了两类:触发原因和深层原因。 这里我并没有提到因或根本原因,理由就是我们原本所认为的因可能往往不止一个,可能会有多个。...我举个比较容易理解的例子: 比如我们有一台服务器宕机了,上面跑的的MySQL服务也挂了,影响了上层业务访问,花了30分钟才解决,被定性为故障。 那这个故障因是什么呢?...有的人可能会说是服务器宕机引起的,服务器问题是因。 有人会说上层数据库没做高可用,数据库问题是因。 也有人会说业务层面没做功能降级,到时业务不可用,业务架构问题是因。...深层原因3:MySQL的主从切换不生效,是因为不同品牌的服务器有特殊配置导致,这个要定期做切换演练,同时每新增一个品牌服务器,要做适配性验证。...其实我们仔细分析下,上面只要有其中一个环节能够做到位,都会大大降低故障的影响度,哪个是因其实已经没那么重要了。

58030

中国不是没有服务器吗?《流浪地球2》的服务器怎么在北京?

就连我们程序员也能在里面找到服务器、人工智能这些熟悉的东西。 这电影中有一个重要的任务,就是要重启全球互联网,来联动全世界的行星发动机。这么重要的东西为啥不用专网通信,而是要用互联网?...好吧,不管这个问题,说回电影,重启全球互联网的一个重要操作就是重启服务器,分别位于中国北京、日本东京、美国杜勒斯。...看到这三个城市名,我又来了疑问:我记得全世界共有13个服务器(注意不是13台物理服务器,不算anycast,也不算镜像),这里面没有中国的份吧?...推荐一个B站UP主做的视频,可以帮助大家了解这方面的东西: 视频地址:https://www.bilibili.com/video/BV1i14y157YV 除了这个服务器的问题,还有一个问题,看完电影我一直也没想明白...那空间站故障了,没电了,或者存储满了,系统挂了咋办? 别的不说,就随便问一个程序员,你的程序要上线一直跑,没有人盯着你放心吗? 可能我有些较真了,不就是个电影吗,对这个问题大家怎么看?

2.1K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    服务器故障邮件报警

    说到服务器硬件监测,用得最多的自然是Zabbix和prometheus,可是对于一般用户来说,部署要求比较高,而且也没有必要。...只是监测服务器硬件故障,并且发生问题的时候,以邮件形式告警,那么服务器自带的功能就足以。 比如戴尔服务器的idrac,配置硬件故障的邮件告警就非常简单。...如上图所示,首先填写邮件发送服务器的地址,其次就是填写发件人邮件地址,然后就是SMTP端口号,采用SSL协议的话,端口号就填写465;最后填写用户名和密码,就是发件人的邮件账号和密码。...收件人邮件地址,当然也需要填写,不然故障报给谁呢?然后可以“发送”测试邮件,一般都是秒收,如果没收到,就检查SMTP配置。...我比较关注系统运行状况和存储,尤其是存储,重要的数据都在硬盘里面呢,其他硬件故障,相对来说,没那么重要,电源坏了,可以换,内存坏个一两条,也无伤大雅。硬盘要是坏了,那就损失大了。

    24430

    智能运维中的故障因分析:算法解析与实践

    故障因分析作为智能运维的关键组成部分,旨在从海量监控数据中快速定位系统故障的根本原因,减少MTTR(平均恢复时间),提升服务质量和用户体验。...本文将深入探讨故障因分析的核心算法,通过具体案例与代码示例,揭示其技术精髓,并在文末分享个人见解。...故障因分析概述故障因分析是智能运维体系中的一项关键技术,它不仅关乎于识别故障发生的直接表现,更重要的是要追溯到引发问题的深层次原因,从根本上解决问题,防止同类故障的再次发生。...以下是故障因分析几个核心组成部分的详细解析:1. 数据采集与预处理数据采集:包括但不限于服务器日志、性能指标(CPU使用率、内存占用、磁盘I/O)、网络流量、应用程序日志、用户行为数据等。...案例:使用随机森林预测服务器故障Python1from sklearn.ensemble import RandomForestClassifier2from sklearn.model_selection

    1.6K00

    IDC服务器故障排除思路

    2、备件准备硬盘、内存、CPU、主板、电源模块等备件二、常规检查在不拆机、不断电的情况下检查故障服务器1、检查开机状态下服务器指示灯是否正常2、检查有无明显异味、有无明显异响3、检查外观有无明显磕碰、变形等物理损伤...4、检查电源线、电源开关是否正常5、登录BMC系统,查看设备状态和日志,定位故障服务器部件6、在授权可以关机断电的情况下,重启服务器,查看BIOS信息和BMCSEL信息定位服务器故障部件7、如确定为可热插拔的设备造成...1、最小化测试法当无法定位到具体故障时,可以通过能开机的最小化配置并逐步添加部件来判断故障范围。除了主板外,只保留单颗CPU、单内存,一个PSU,用短接开关针脚方式开机,来进行判断。...如果最小化可以正常开机,再逐步添加其他部件,通过重启服务器来判断是哪个部件故障。2、替换法当大概知道故障范围时,可以通过1-3个部件逐步替换来查找出具体故障,检查故障现象是否有变化,来确认具体故障点。...通过逐一替换服务器内的疑似故障部件,观察故障现象是否消失,以此定位故障部件。可以先替换比较容易出故障的部件,比如硬盘、内存等。

    9110

    服务器硬盘故障预测实践

    理论上服役时间越长的服务器发生故障的几率也将越大,从腾讯全网服务器的统计结果也表明服务器老龄化的加剧,故障概率会加速上升,特别是使用年份超过4年的设备故障率将出现陡升的情况,显而易见高故障率的老龄化设备将对现网业务造成巨大的影响...我们的服务器使用年限超过5年后,硬盘故障率都是非常高。 ? 于是乎,想快速有效的降低服务器故障的影响,核心就在于降低硬盘故障的影响。...或许这些服务器配置信息能给出一些统计结果,我们想要的是即将故障的硬盘,而不是这些差异性不大的各个集合的整体故障率。...为了支持我们提供了运营模型设置,主要包括服务器类型,上架年限,服务器健康度,业务模块,预测比,坏块比,性能参数等,系统会根据这个设置表,对满足其中任意一条规则的预测故障盘,自动发起故障流程。...成功预测的硬盘故障数量,粗略估算已覆盖SATA硬盘故障数的50%左右,进而促使5年以上服务器对业务影响的硬件整体故障率也下降了0.5%。

    13.6K90

    为什么《流浪地球2》中服务器如此重要?从服务器与域名解析聊到内网穿透

    那么,什么是服务器,启动互联网前真的必须先启动服务器吗?又为什么要同时启动三台服务器呢?本文,我们就来聊一聊。 2....服务器与域名解析 所谓的“服务器”,全称是域名服务器,说起域名服务器,我们首先想到的肯定是 DNS 服务器,此前我们介绍了浏览器的工作流程时有过介绍: 网络是怎样连接的(一) -- 浏览器是如何工作的...如图所示: 由此可见,服务器对于互联网域名服务来说是非常重要的,就目前 IPv4 的域名解析来说,全球共有 13 台服务器,是以 1 主 12 从的架构来设计的,这一台主根服务器位于,剩余 12...另一方面,全球有 1000 台备份有服务器全部数据的服务器,可以在特殊情况下替代服务器来使用。...印度、俄罗斯、德国、法国等全球16个国家完成25台IPv6服务器架设,其中中国有一台主根服务器与3台辅服务器

    3.3K40

    听说DNS服务器只有13台,科学吗?

    本机是轻松了,然而最近的DNS服务器(有可能是你的家用路由器)却需要忙活起来了,它需要采用迭代查询的方式,最坏的情况下,它需要: step2: 查询域名服务器 step3: 拿到域名服务器返回的一级域名...DNS的IPV4域只有13个吗? 确实是的。 问题又来了。 为什么是13个IP,不能再加吗? 这个,单纯是历史原因了。...比如,很久以前看电视的时候,有位砖家提到"全球DNS服务器只有13台,其中x台部署在漂亮国,只要它们切断访问,那我们的网络就会受影响balabala"。 但其实,13个IP不代表只有13台服务器。...所以,就算其他国家的域名服务器挂了,也不会对我们有什么影响,事实上国内已经有非常多的镜像服务器了,稳得很。...• 虽然域只有13个IP,但不代表只有13台服务器,准确的说,应该是十三组服务器,每组服务器都共用同一个IP,国内已经有非常多的镜像服务器,利用任播技术,只要能就近访问到其中一台就行了。

    1.1K40

    如何理解域名服务器?它具有什么作用?

    image.png 一、如何理解域名服务器?...提起它的时候,很多普通网友会感到陌生,这是因为它并不是人们经常接触到的词汇,它可以被看成互联网运作和发展的基石,可以举个例子来进行理解,比如域名系统是互联网的神经,那么服务器就可以被看成神经中枢,由此可见域名与服务器...如果域名服务器瘫痪的话,则用户就不能够正常访问与浏览网站,所以它在互联网世界中,扮演了不可或缺的角色,也就是说人们之所以能够顺畅浏览一些网站,以及在网站里面下载学习资源和工作资料,这些过程都与服务器具有相关联系...二、域名服务器具有什么作用?...它对网络安全以及网络运行稳定等起到了不可忽视的作用,相信了解互联网知识的人们,他们都会对顶级域名感到熟悉,服务器会完成这些顶级域名的解析过程,从而为网友提供相应服务。 怎样理解域名服务器

    2.9K30

    Linux服务器故障排查基本方案

    服务器架构 服务器系统为Centos7 首先需要知晓系统的对外的架构 一般架构: 1.域名--->云服务器(ECS) 2.域名--->CDN--->云服务器(OSS) 3.域名--->CDN---...>云服务器ECS+数据库RDS+缓存Redis 4.域名--->CDN--->负载均衡--->云服务器ECS+数据库RDS(主从)+缓存Redis 5.域名--->CDN-->WAF防火墙--->负载均衡...--->云服务器ECS+数据库RDS(主从)+缓存Redis 再根据实际情况出现的问题,一步步排查。...客服、市场同事等钉钉、电话报告出现的问题 二、快速定位问题 网络带宽(CDN是否异常) 域名是否解析到源站 登录XXX云CDN后台查看相应流量 负载均衡 检查负载均衡是否正常运行,是否流量异常 应用层服务器...ECS服务器负载是否正常、cpu、内存负载是否过高,硬盘使用率是否达到100%等 缓存服务器 redis服务器负载是否正常、内存使用率如何 数据库服务器 数据库连接数是否正常 列出当前用户的所有连接信息

    67510

    什么是 DNS 服务器?真的只有13个吗?

    DNS 服务器是 DNS 系统中最高层的服务器,它是整个 DNS 域名解析的起始点。本文将介绍 DNS 服务器的作用、组织结构以及真实数量是否只有13个。...图片DNS 服务器的作用DNS 服务器是 DNS 系统的起点,它存储了顶级域名服务器的信息,包括通用顶级域(gTLD)和国家代码顶级域(ccTLD)的域名服务器地址。...服务器由 ICANN(互联网名称与数字地址分配机构)和其他相关组织共同管理。根据 DNS 服务器的名称,它们被标识为字母 A 到 M 的13个字母,每个字母对应一个服务器。...每个字母对应的服务器通常由不同的组织负责运营。图片真的只有13个 DNS 服务器吗?实际上,DNS 服务器的数量远不止13个。13个字母只是一个符号性的表示方式,用于方便标识这些服务器的名称。...每个字母代表一个名为“根区域”的逻辑区域,而每个根区域都由多个实际的服务器组成,以提供冗余和高可用性。每个根区域都有多个服务器,它们被称为“服务器实例”或“服务器镜像”。

    3.4K20

    AIOps之因分析(一):基于图的微服务trace分析与故障诊断

    当微服务架构出现系统性风险时,排查风险和故障诊断相比于传统的项目会更加困难。 微服务trace分析,可以用来排查风险和诊断故障。...基于微服务trace,可分析服务间的依赖关系,并用于定位故障因。...GMTA Explorer在GMTA的基础之上提供了(静态trace & 动态trace的)可视化、调用链对比视图以及错误链查询等功能,辅助用户定位异常因。...断链修复则主要trace没有节点或trace有多个节点的场景。...3.2 GMTA帮助SRE诊断故障的案例 SRE在GMTA Explorer平台是看到如下样式,成功定位到故障源于服务c,最终排查发现是服务c最近一次发布引入了故障代码。

    3.7K23

    为什么全球只有13组域名服务器

    域名服务器是域名解析系统(DNS)中最为顶级的域名服务器,它们负责管理顶级域的权威域名服务器地址。作为互联网基础设施的重要部分,所有域名的解析操作均离不开它们。...下面我们将从 DNS 协议实现的角度分析为什么全球只有13组域名服务器。...13组域名服务器的信息 image.png 其中,13组域名服务器以英文字母 a 到 m 顺序命名,域名格式为“a~m.root-servers.net”,如“b.root-servers.net”...12+5+(31+(15*(N-1))+16*N,再根据前述 DNS 大小限制不超过512字节的要求,可以得 N 不超过15组,再加上早期设计的时候考虑到预留一些 buffer 于是就有了现在全球13组域名服务器的结果...通过问题“全球为什么只有13台 DNS 服务器?”的讨论我们了解了 DNS 解析协议,下面我们将自己的动手搭建 DNS 服务器

    6.1K70

    AD RMS高可用(三)部署RMS群集服务器

    1) 在rms服务器上点击“添加角色和功能”,开始rms组件的添加 ? 2) 选择“基于角色或基于功能安装”,点击”下一步“。 ? 3) 选择第一台rms服务,点击”下一步“。 ?...7) 选择“Active Director权限管理服务器”。 ? 8) 添加iis角色 ? 9) 保持默认勾选,点击”下一步“ ? 10) 确认无误,点击”安装“ ? 11) 等待安装完成。 ?...13) 选择”创建新的AD RMS群集“ ? 14) 输入sql名称,点击”列表“,选择”Defaultinstance“ ?...17) 选择“使用CSP密钥存储”,该模式比使用ad rms集中管理更安全,因为它的密钥以加密方式存放,不会因忘记群集密码而其他成员服务器就不能加入该rms群集的。 ?...“AD RMS高可用(二)为rms群集服务器申请证书”中的证书名称要跟这里名称匹配。 ? 21) 选择加密的证书。 ? 22) 保持默认,点“击下一步”。 ?

    2K20

    服务器故障、网络故障能提早知道?教你一招搞定

    在多年的IT外包服务过程中发现,一旦客户的网络或者服务器出现故障,如果我们能比客户先知道,并且迅速响应、解决问题,客户的满意度就会非常高。 那么,怎样才能做到服务器故障早知道呢?...在企业的IT基础设施中,服务器的健康状况是至关重要的,特别是Windows服务器,因为它们通常执行关键的业务应用程序。...3.安装过程中,按照提示设置合适的Hostname,填写Zabbix服务器的地址,注意,我习惯用域名来作为服务器地址,这样,当服务器IP变化的时候,就不用修改很多个客户端了,是个省事的好习惯。...随着你对Zabbix功能的深入了解,你将能够更有效地管理和维护你的服务器。 比如,Zabbix可以直接监测服务器的硬件性能,就算是服务器重启一下,也会收到邮件。...虽然不一定知道重启的原因,但是如果这个时候,客户跟你说断网了,你就能回答:“路由器重启中,估计3分钟内恢复网络,如果还是有故障,我们会第一时间处理。” 是不是很酷?想来客户一定会很满意的!

    13310

    【数据结构】大堆和小

    堆实现逻辑 从整棵树的最后一颗子树开始调整,每次都让节点和左右孩子去比较,如果节点比左右孩子的最大值要小,那么就将这两个值进行交换,然后此时这颗子树变成了大堆,再看下一颗树 然后对下一颗树进行相同的处理方法...,后面的子树依次交换: 当每棵子树都是大堆的情况下,那么这棵树也就是大堆了 每一次交换的步骤为: 从最后一棵树开始调整 左右孩子的最大值和节点进行比较,如果大于节点,就交换 遇到的主要问题...第一组节点和左孩子节点的值在哪 既然调整要从最后一棵子树的节点开始,那如何确定最后一棵子树的节点在哪?...最后一棵子树的节点和孩子找到了,并且交换完成了,那怎么确定下一棵子树中要交换的一组节点和左孩子节点的值呢?...,则跳出循环 break; } } } 观察调试结果,可发现已变成大堆 小堆的实现 小堆的实现只需要在大堆实现的基础上将 child

    8710
    领券