首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

运维规范:线上故障处理的流程模板

事故出现时候的处理流程及文档记录。事故处理流程基本原则: 在故障处理过程中采取的所有手段和行动,一切以恢复业务为最高优先级。...流程机制故障发现后,On-Call 的 SRE 或 运维,故障指挥官 有权召集相应的业务开发或其它必要资源,快速组织 事故处理小组。...详细流程图```sequenceOnCall运维->故障:发现故障OnCall运维->OnCall运维: 初步分析故障原因OnCall运维->事故处理小组: 召集业务开发或其它必要资源事故处理小组->事故处理小组...: 最近发布情况事故处理->事故处理: 服务和基础设施情况事故处理->事故处理: 解决故障事故处理->事故处理小组: 排查记录故障->事故恢复: 进行恢复验证事故恢复->事故处理小组: 恢复结果通知OnCall...测试反馈测试人员对本次故障处理的反馈。方便开发人员查问题。

2.8K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    故障分析 | Greenplum 集群 standby 故障处理

    Master会认证客户端连接、处理到来的SQL命令、在Segment之间分布工作负载、协调每一个Segment返回的结果以及把最终结果呈现给客户端程序。...3)Segment Severs:Greenplum数据库的Segment实例是独立的数据库,每一个都存储了数据的一部分并且执行查询处理的主要部分。...服务于Segment数据的数据库服务器进程运行在相应的Segment实例之下。用户通过Master与一个Greenplum数据库系统中的Segment交互。...4.2、清除有故障的主机的(备库)配置信息:[gpadmin@master01 ~]$ gpinitstandby -r执行过程省略,但有个选项需要确认:Do you want to continue...5、额外补充:如果Greenplum集群中master节点故障处理思路:1)先把standby提升为新master,确保集群第一时间可用,提供对外服务;2)修复旧master,并添加到集群中成为新standby

    87310

    事中故障处理(4)故障定位

    故障恢复指恢复业务连续性的应急操作,很多故障是在不断尝试验证解决恢复的动作,所以故障恢复环节与故障定位环节有一定的交叠,或在这两个环节之间不断试错的循环,即故障恢复操作可能和故障诊断是同时,也可能是诊断之后或诊断之前...1.已知预案下的恢复三把斧 在故障管理过程中,通常大部分故障有一些明确的故障恢复预案,比如基础设施、服务器、网络设备、网络线路,以及应用系统层中关于服务可用性等故障因素,以及基于历史故障经验积累的方案。...不可修复系统的平均寿命指系统发生失效前的平均工作时间或工作次数, 也称为系统在失效前的平均时间,比如基础设施层面的环控、服务器、存储、负载均衡设备、网络设备、专线等通常是不可修复系统,这类系统需要在初始阶段进行可靠性设计...、数据完整性的故障恢复,这些故障恢复通常需要现场临时决断恢复。...结束 注:“3.4 事中处置”另外3个环节内容链接: 1.故障发现、故障响应 2.故障定位

    1.4K31

    规范-异常处理

    为什么需要规范的异常处理?...首先,规范异常处理也是为了后期能更好的维护,减少程序出错,别再哪里都try{}catch(){},对于有强迫症的我,规范处理异常是必不可少的;规范异常处理能让你代码变得更加整洁、干净。 2....异常处理分类 异常处理方式: service抛出异常,controller统一try{}catch(){} 对于一些io、http请求异常能直接处理的就直接try{}catch(){}处理 controller...不处理异常,通过@ControllerAdvice 定义部分类型的异常进行处理 @ControllerAdvice public class WebExceptionHandler { @ExceptionHandler...首先我们需要给到请求方统一的请求和响应编码表,能让请求方根据不同的异常编码进行分类处理,而对内的异常编码是为了平台内部统计或记录异常信息,更有利于排查问题。

    1.1K40

    异常处理规范

    几个人靠对日志去看,同一秒多次请求很正常,而且每个服务器的时间有可能不一样。也没有requestId之类的东西,让你确定是同一个请求。请求到底真正发出去没有,也是个问题。...这里再整理系统异常处理的原则和处理规范,应该注意的事项: 不要吞掉Exception,不要在业务代码中进行捕获异常, 即 Dao, Manage、Service, Controller 层的所有异常都全部抛出到上层...自个处理完,抛到最外层, 最外层统一捕捉。 处理好每一层的异常,返回统一的结果集 ( 错误码 + 错误描述 )。 统一框架层处理。 需要封装成自己的业务Exception定义为Runtime类型。...异常处理尽量不要太宽泛。 鉴权的异常单独处理。 一个错误描述的基本信息应该包含: 编码 描述 状态 来自于那个系统及 系统的那一层,表单验证层or业务逻辑层or数据库层。...当出现问题的时候,通过异常处理,把我们需要的关键信息描述清楚这样的异常处理才有价值。好像看似有些系统有异常处理,好像跟没有差别不大。减少技术支持时间,减少排查问题的时间才是好的异常处理

    24510

    线上故障处理手册

    摘要 通常处理线上问题的三板斧是 重启-回滚-扩容,能够快速有效的解决问题,但是根据我多年的线上经验,这三个操作略微有些简单粗暴,解决问题的概率也非常随机,并不总是有效。...这边总结下通常我处理应用中遇到的故障的解决方案。 原则 处理故障的时候必须遵循的一些原则 提早发现问题,避免故障扩散 故障的出现链路一般如下图所示 ?...处理手段 处理手段无非是重启、扩容、回滚、限流、降级、hotfix 以下是我一般处理线上问题的流程 ?...如何预防 从上述操作可以看出,故障发生时需要做的判断还是很多的,如果经验不够丰富,处理不得当,很容易引发故障升级、资产损失。所以需要提前预防。 了解你的服务 像哲学家剖析自己一样去了解你的服务。...监控警报 监控警报有助于提早发现故障,所以确保监控项完备,警报能够有效报出来。

    1.1K20

    线上故障处理指南

    一、最重要的三件事 1、止损 2、止损 3、止损 故障损失≈单位时间内的损失*故障时长 尽快恢复,是止损的最佳办法,至于查找根本原因,或者从根本上解决问题,那是服务恢复可用后的事情 二、故障处理三板斧...,如果有,立即扩容就是最佳选择 如果经过一系列初步判断都不能确认问题原因,扩容也可能是尽快止损的最佳选择 三、资损故障处理 资金直接损失问题相较于一般问题影响更大,处理起来也更棘手,三板斧中只有回滚能应对资损问题...,所以这里单独列举资损问题处理办法 1、持续性发生的资损 例如:话费充值发生满减bug,用户充值任意金额都优惠10元钱,不限次数 解决办法:1关2改3追 关:关掉问题入口(关掉问题服务/关掉问题服务器)...良好信息同步,是快速恢复和止损的重要基础 1、关联方同步 在「故障信息同步群」第一时间同步问题跟进状态,并@上下游负责人知悉 如需上下游协助,建立问题处理沟通群(例如:0707充值优惠问题处理) 紧急问题需要会议沟通恢复办法...,使用「作战室」会议室现场沟通,或者在主要影响团队附近开站立会 「故障信息同步群」是为了帮助我们第一时间同步故障信息,信息传递的及时&准确能为故障处理提供好的舆论基础 「作战室」可以帮助故障处理负责人协调各方协同处理故障

    1.1K10

    线上故障处理实践

    一、背景 最近公司一个系统发生线上故障,系统架构为C/S的,客户端是APP;系统的功能有:联系人、短信、通话记录等,每个业务都有备份、恢复的功能,即用户可以在APP内备份自己的联系人、短信、通话记录至服务端...第1层Nginx,主要做一些流量清洗、流控等处理; 第2层是应用层,分应用接入层和服务层,应用接入层做一些参数检查和登录检查等,服务层处理业务逻辑,这2层之间通过RPC通信; 底层的存储是Mysql和Hbase...,Mysql存一些元数据,真正的业务数据存放在Hbase中; 该系统经过几次接手,没有人能对系统逻辑理解很清楚; 该系统从去年下半年开始一直偶尔有500的报错,但每次重启就好了,本次发生故障后,重启仍然是大量...发现是连接应用接入层超时,应该是应用接入层压力大,赶紧将接入层扩容,增加了1倍的服务器; 应用层扩容后,发现连接Hbase报错超时了(这里就不列日志了,日志很重要~)。...此框架线程池参考的是Dubbo设计的,有threads和queues的配置,只不过框架中queues参数不能改,默认是threads*100,即如果线程数设置为500,则等待队列是50000,并且一直要处理等待队列才能处理新请求

    57730

    故障问题处理指南

    一、概述 线上故障问题处理一般分为以下几个步骤: 故障发现 故障处理 故障复盘 在故障处理期间,无论是哪一个阶段,要记住我们的首要目标是“止损”,尽快恢复、消除故障影响,这并不代表我们完全定位了故障问题...二、故障发现 及时发现故障处理故障的前提,越早发现问题,就越能减少故障带来的影响,我们应当尽可能通过自动化的方式主动发现问题。...常用的监控类型: 监控类型 监控指标 备注 服务器监控 负载、内存、IO等 服务监控 吞吐量、接口性能、响应时间等 业务监控 访问量,业务量,错误率,转化率等 Paas 类型监控项mysql慢查询...线上故障处理也可以有“黄金5分钟”的概念,在大流量下,故障发生最初的5分钟如果介入处理,快速定位到根因,作出正确的决策处理,能最大程度避免系统出现雪崩,出现长时间不可用的情况。...操作完成后通报 附故障通报格式 故障标题: 影响范围: 发现时间: 原因简述: 处理人: 预计恢复时间: 止损 故障处理的第一要务 优先止损!优先止损!优先止损!

    71610

    3.4 事中故障处理(3)故障定位

    故障定位指诊断故障直接原因或根因,故障定位有助于故障恢复动作更加有效。故障定位通常是整个故障过程中耗时最长的环节,定位的目标围绕在快速恢复的基础上,而非寻找问题根因,后者由问题管理负责。...通常大部分可用性故障,要借助运维专家经验的假设判断或已知预案的执行得到解决,但仍有部分故障,尤其是性能、应用逻辑、数据故障需要多方协同与工具支持。...依靠经验最大挑战是应对人员不在故障处理现场的问题,技能的沉淀与传承是运维管理需要考虑的问题。前者针对技能经验的知识化,重点关注知识生产、保鲜、共享;后者针对岗位设置、培训、值班管理等机制。 工具赋能。...仅凭借管理员在海量日志中手动查看日志记录,需要登陆每一台服务器,一次次重定向文件,操作繁琐,不利于故障定位。...2)链路 这里提的链路主要包括纵向与横向的依赖关系,纵向关系指从生产对象的部署关系建立的从基础设施、网络、计算资源服务器、存储、虚拟机、容器、主机、应用系统、应用、服务的关系,通常围绕应用系统进行扩散;

    1.6K20

    微服务的故障处理

    在复盘时,结论是增加上线审核流程和控制来试图阻止故障的再次发生,很少花费心思想想如何更加容易地在第一时间从故障中恢复过来。 在这次故障中我也做了一些思考,如果当时是我处理这起故障,我能做什么?...一 技术实现前的思考 思考一、假定故障会发生,如何去优雅地处理它。 假设一切都会失败,会让你从不同的角度去思考如何解决问题。...我们可以在试图阻止不可避免的故障上少花一点时间,而花更多时间去优雅地处理它。假定故障会发生,如果以这种想法来处理你做的每一件事情,为其故障做好准备,那么就会做出不同的权衡。...现在,让我们考虑从技术方面可以做的事情,以确保当故障发生时可以优雅地处理。 二 技术方面可以做的事情 在分布式架构下,准备好如何应对各种故障的发生是非常重要的。那么我们需要做什么来应对系统故障呢?...如果我们使用的集成技术允许下游服务器离线,上游服务便不太可能受到计划内或计划外宕机的影响。 服务间加强隔离还有另一个好处。当服务间彼此隔离时,服务的拥有者之间需要更少的协调。

    51810

    ORA-00600 故障处理

    客户有一套测试库主机宕机,主机启动后,数据库启动报ORA-00600 [4194],本文介绍处理过程。 1....这个问题通常发生在掉电或硬件故障导致数据库crash,在启动时,数据库执行正常的前滚(重做),然后回滚(撤销),这就是回滚时产生错误的地方。 3. 处理思路 通常最好的办法是通过备份进行恢复。...如果没有备份,那么可以通过特殊的初始化参数进行强制启动,然后做进一步处理。 我这里先按照Doc ID 1428786.1里提供的方法尝试处理。 4....处理过程 (1)启动数据库到nomount,创建pfile,方便添加参数 SYS@chnldev> startup nomount ORACLE instance started....如果有online的非system回滚段,那么处理过程会更加复杂。

    76030

    如何快速处理线上故障

    找到了根本原因,解决了问题之后,我们需要举一反三,以此及彼,想想在这个故障排查和处理过程中,那些环节存在弱点?那些流程/规范/制度需要优化?这类问题是否在其他系统或者团队中也存在?...在无法快速找到故障原因的时候,需要果断跳过故障定位环节,直接进行故障排除,比如采用服务降级、服务器扩容等手段,确保对线上服务降到最低且可控。...、GC、连接池等各个服务器指标异常,可能是服务器出现了异常,但是业务还未受到大面积影响; 业务监控告警 如用户登录失败率增加,订单堆积量增大,则意味中系统的异常已经很严重,影响了业务处理; 关联系统故障追溯...因此在得到一些线上故障苗头之后,可以通过以下途径确定是否是线上故障:业务监控告警、上报事件个数、问题重现、服务器监控等。...8 线上故障处理的“后勤保障” 前面谈了线上故障处理的目标、思路和步骤,回过头来看下,要快速准确地定位和排除线上故障,需要很多基础设施支撑,它们是线上故障处理的“后勤保障”。

    1.7K60

    DRBD 管理、故障处理部分

    d  里面设定的脚本,最后是/etc/rc.local ,如果同样是在某运行级别下的脚本,根据S后面的数字,数字越小优先级越高,所以drbd的数字要比keepalived的小一些;   2、磁盘IO故障...create-md all     drbdadm attach all     drbdadm invalidate  all     drbdadm secondary all   4、处理节点故障...:     当primary node 出现故障后,Drbd并不升级存活的节点到主,需要集群管理程序重要做。    ...切换完毕后需要做 的事情:       1)将出现故障的硬件替换为与之类似性能和容量的磁盘。(性能最好一致;替换为磁盘容量比较小,会导致drbd拒绝连接被替换的节点。)      ...resource  (设置drbd资源的同步参数)       8)drbdadm connect resource  (连接对等节点)       Look:千万不要初始化设备,   5、脑裂问题处理

    71110

    接口级故障处理策略

    这类问题主要是由系统压力太大、负载太高导致的,例如慢查询将数据库服务器资源耗尽,导致连接、读写超时。...适用于规模不太大的系统,如果服务器非常多,一台台的操作就比较麻烦了,耗时较长,因为故障处理是争分夺秒的。...熔断 降级是对自身故障处理,熔断是对外部系统故障处理,例如: ? 这时就需要熔断机制,B有问题时,A就不请求了,对B接口的调用直接返回错误,避免被拖死。...例如,采用 netty 实现服务器,每个进来的请求都先放入一个队列,业务线程从队列读取然后处理,队列长度最多1万,满了以后就拒绝请求;根据CPU占用率进行限流,超过80%时拒绝请求。 4....服务模块 负责调用业务来处理服务,并返回处理结果。 小结 常用的4种接口级故障处理策略:降级、熔断、限流、排队。 降级,对自身故障处理。 熔断,对外部系统故障处理

    1.1K20
    领券