首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

运维管理之线上故障处理原则

应急目标 在生成环境发生故障时快速恢复服务,避免或减少故障带来的损失,避免或减少故障对客户的影响 应急原则 应第一时间恢复系统,而不是彻底解决呢问题,快速止损 明显资金损失时,要第时间升级,快速止损 指标要围绕目标...,快速启动应急过程与止损方案 当前负责人不能短时间内解决问题,则必须进行升级处理 处理过程在不影响用户体验的前提下,保留现场 应急方法与流程 线上应急一般分为 6 个阶段 发现问题 定位问题 解决问题...对数据库的负载、慢查询、连接数等监控 对缓存的连接数、占用内存、吞吐量、响应时间等监控 消息队列的响应时间、吞吐量、负载、堆积情况等监控 定位问题 分析定位过程中先考虑系统最近发生的变化,需要考虑如下几方面 故障系统最近是否上过线...最近的业务量是否涨了? 运营方是否有促销活动?...做了哪些事情,及时发生故障,也不会产生影响? 改进措施 根据回顾问题提出的改进措施,以正式的项目管理方式进行统一管理,采用 SMART 原则来跟进 参考 分布式服务架构原理、设计与实战

2.1K30

业务代码抽象原则

模块内聚 把具有强关联性的业务逻辑放在一个模块叫功能性内聚,功能性内聚被认为是最佳实践。...当上层需要聚合的服务在多个模块(团队)时,我们还是本着领域划分的原则,谁的领域知识是最重要的或者说占比最多的,那么这个就该谁聚合。...下面是主流的分层方案,供大家参考: 展示层:向用户展示软件的功能和信息 应用层:应用的逻辑的协调,不包含业务逻辑和业务对象的状态,包含会话的上下文 领域层:核心业务逻辑,业务对象状态保持,包含完整的领域信息...基础层:实体对象的持久化,公用库,基础服务 服务接口原则 读与写操作都尽可能保证接口幂等性,对于写操作,利用乐观锁解决并发的问题。...但是也不能不抽象,否则接口数会暴增,随着业务的稳定,有必要抽象合并。

1.4K40
您找到你想要的搜索结果了吗?
是的
没有找到

故障分析 | Greenplum 集群 standby 故障处理

Master会认证客户端连接、处理到来的SQL命令、在Segment之间分布工作负载、协调每一个Segment返回的结果以及把最终结果呈现给客户端程序。...3)Segment Severs:Greenplum数据库的Segment实例是独立的数据库,每一个都存储了数据的一部分并且执行查询处理的主要部分。...auto postgres[gpadmin@standby01 ~]$ cd /greenplum/gpdata/master/[gpadmin@standby01 master]$ ll总用量 04、故障分析及解决...4.2、清除有故障的主机的(备库)配置信息:[gpadmin@master01 ~]$ gpinitstandby -r执行过程省略,但有个选项需要确认:Do you want to continue...5、额外补充:如果Greenplum集群中master节点故障处理思路:1)先把standby提升为新master,确保集群第一时间可用,提供对外服务;2)修复旧master,并添加到集群中成为新standby

86010

事中故障处理(4)故障定位

故障恢复指恢复业务连续性的应急操作,很多故障是在不断尝试验证解决恢复的动作,所以故障恢复环节与故障定位环节有一定的交叠,或在这两个环节之间不断试错的循环,即故障恢复操作可能和故障诊断是同时,也可能是诊断之后或诊断之前...3.临时决断恢复 虽然有不少故障可以基于已知预案、架构高可用与可靠性方面的设计提升故障恢复的时间,但是随着运维复杂性以及企业以客户体验为中心的建设,运维对可用性的要求在服务层的业务连续性基础上,增加了业务功能逻辑...业务验证指联系业务人员、客户、同业等角度,从功能层面进行验证。技术验证对于运维来说更加可控,且可以全局性的角度观测故障恢复状况,而业务验证有助于辅助确认业务层面的恢复情况。...理想情况下,故障恢复操作后,能同时进行技术与业务验证是最好的,如果无法找到业务验证,通过交易流水的执行状态变化、主动拨测、业务日志等方式也可以作为模拟业务验证的手段。...信息通报包括服务台、业务与客户、技术关联方、监管机构。故障恢复后,还要及时、有效的将恢复动作执行与恢复状况信息通报出去。

1.4K31

线上故障处理手册

摘要 通常处理线上问题的三板斧是 重启-回滚-扩容,能够快速有效的解决问题,但是根据我多年的线上经验,这三个操作略微有些简单粗暴,解决问题的概率也非常随机,并不总是有效。...这边总结下通常我处理应用中遇到的故障的解决方案。 原则 处理故障的时候必须遵循的一些原则 提早发现问题,避免故障扩散 故障的出现链路一般如下图所示 ?...处理手段 处理手段无非是重启、扩容、回滚、限流、降级、hotfix 以下是我一般处理线上问题的流程 ?...如何预防 从上述操作可以看出,故障发生时需要做的判断还是很多的,如果经验不够丰富,处理不得当,很容易引发故障升级、资产损失。所以需要提前预防。 了解你的服务 像哲学家剖析自己一样去了解你的服务。...监控警报 监控警报有助于提早发现故障,所以确保监控项完备,警报能够有效报出来。

1.1K20

线上故障处理指南

一、最重要的三件事 1、止损 2、止损 3、止损 故障损失≈单位时间内的损失*故障时长 尽快恢复,是止损的最佳办法,至于查找根本原因,或者从根本上解决问题,那是服务恢复可用后的事情 二、故障处理三板斧...,如果有,立即扩容就是最佳选择 如果经过一系列初步判断都不能确认问题原因,扩容也可能是尽快止损的最佳选择 三、资损故障处理 资金直接损失问题相较于一般问题影响更大,处理起来也更棘手,三板斧中只有回滚能应对资损问题...良好信息同步,是快速恢复和止损的重要基础 1、关联方同步 在「故障信息同步群」第一时间同步问题跟进状态,并@上下游负责人知悉 如需上下游协助,建立问题处理沟通群(例如:0707充值优惠问题处理) 紧急问题需要会议沟通恢复办法...,使用「作战室」会议室现场沟通,或者在主要影响团队附近开站立会 「故障信息同步群」是为了帮助我们第一时间同步故障信息,信息传递的及时&准确能为故障处理提供好的舆论基础 「作战室」可以帮助故障处理负责人协调各方协同处理故障...,用户已经进入了错误的流程,或者说回滚后,用户的数据已经无法兼容(常见于系统重构引起的故障)那么就不建议回滚 从降低维护成本以及提升故障处理效率的角度,理论上所有的上线都应该是可回滚的,如果上线的代码

1.1K10

线上故障处理实践

一、背景 最近公司一个系统发生线上故障,系统架构为C/S的,客户端是APP;系统的功能有:联系人、短信、通话记录等,每个业务都有备份、恢复的功能,即用户可以在APP内备份自己的联系人、短信、通话记录至服务端...第1层Nginx,主要做一些流量清洗、流控等处理; 第2层是应用层,分应用接入层和服务层,应用接入层做一些参数检查和登录检查等,服务层处理业务逻辑,这2层之间通过RPC通信; 底层的存储是Mysql和Hbase...,Mysql存一些元数据,真正的业务数据存放在Hbase中; 该系统经过几次接手,没有人能对系统逻辑理解很清楚; 该系统从去年下半年开始一直偶尔有500的报错,但每次重启就好了,本次发生故障后,重启仍然是大量...此框架线程池参考的是Dubbo设计的,有threads和queues的配置,只不过框架中queues参数不能改,默认是threads*100,即如果线程数设置为500,则等待队列是50000,并且一直要处理等待队列才能处理新请求...,所以造成新请求一直在nginx层报超时,但后端服务层还在处理很早以前的请求,即做一些无用功。

57530

故障问题处理指南

一、概述 线上故障问题处理一般分为以下几个步骤: 故障发现 故障处理 故障复盘 在故障处理期间,无论是哪一个阶段,要记住我们的首要目标是“止损”,尽快恢复、消除故障影响,这并不代表我们完全定位了故障问题...: 渠道 关注 钉钉 xxx群 三、故障处理 核心原则: 语音沟通 优于 文字沟通 团队协作 优于 孤军奋战 优先止损 优于 优先究因 断臂防崩 优于 深陷泥潭 识别 无论主动或是被动,值班人员接到故障后...业务高峰期值班我们要求接到问题立刻开始处理 识别问题的优先级 级别 描述 判断标准 举例 P0 重要且紧急 大范围的问题。影响 金钱 的问题。关键渠道核心路径的问题 多起用户反馈的问题。...核心路径,上课,购买流程 处理 故障处理方法的核心要点有三,团队作战,优先止损,深究根因。 在当前服务化架构的线上系统环境下,我们最看中的指标是系统的可用性,特别是核心业务流程的业务可用性。...团队 业务高峰期间进行故障处理,尽量组成团队作战。

70610

3.4 事中故障处理(3)故障定位

依靠经验最大挑战是应对人员不在故障处理现场的问题,技能的沉淀与传承是运维管理需要考虑的问题。前者针对技能经验的知识化,重点关注知识生产、保鲜、共享;后者针对岗位设置、培训、值班管理等机制。 工具赋能。...日志记录了从业务、中间件、系统等全链路信息,可以有效监控IT系统各个层面,从而有效的调查系统故障,监控系统运行状况。...:满足IT资源管理线上化,支撑运维平台化互联互通,以业务为中心的配置管理,基于关系为核心的知识图谱)。...站在运维业务连续性保障的最终价值看,监控要在“监”的基础上,增加“控”在故障恢复角度的要求,而要实现“控”前,需要监控具备定位问题的能力。...关注影响业务的点,比如:是否影响业务服务可用性、性能、功能、体验 数据驱动。

1.6K20

ORA-00600 故障处理

客户有一套测试库主机宕机,主机启动后,数据库启动报ORA-00600 [4194],本文介绍处理过程。 1....这个问题通常发生在掉电或硬件故障导致数据库crash,在启动时,数据库执行正常的前滚(重做),然后回滚(撤销),这就是回滚时产生错误的地方。 3. 处理思路 通常最好的办法是通过备份进行恢复。...如果没有备份,那么可以通过特殊的初始化参数进行强制启动,然后做进一步处理。 我这里先按照Doc ID 1428786.1里提供的方法尝试处理。 4....处理过程 (1)启动数据库到nomount,创建pfile,方便添加参数 SYS@chnldev> startup nomount ORACLE instance started....如果有online的非system回滚段,那么处理过程会更加复杂。

75230

DRBD 管理、故障处理部分

d  里面设定的脚本,最后是/etc/rc.local ,如果同样是在某运行级别下的脚本,根据S后面的数字,数字越小优先级越高,所以drbd的数字要比keepalived的小一些;   2、磁盘IO故障...create-md all     drbdadm attach all     drbdadm invalidate  all     drbdadm secondary all   4、处理节点故障...:     当primary node 出现故障后,Drbd并不升级存活的节点到主,需要集群管理程序重要做。    ...切换完毕后需要做 的事情:       1)将出现故障的硬件替换为与之类似性能和容量的磁盘。(性能最好一致;替换为磁盘容量比较小,会导致drbd拒绝连接被替换的节点。)      ...resource  (设置drbd资源的同步参数)       8)drbdadm connect resource  (连接对等节点)       Look:千万不要初始化设备,   5、脑裂问题处理

70210

如何快速处理线上故障

、GC、连接池等各个服务器指标异常,可能是服务器出现了异常,但是业务还未受到大面积影响; 业务监控告警 如用户登录失败率增加,订单堆积量增大,则意味中系统的异常已经很严重,影响了业务处理; 关联系统故障追溯...上游系统或者下游系统的故障处理邮件/电话追溯,可能和本系统有关系,而且情况已经变得很糟糕了,需要快速定位; 生产事件上报 通常业务异常带来的影响传递到用户,再从用户传递到客服人员,再到技术人员手里...还是那句话,故障排除的原则是:确保线上服务快速恢复,不能完全恢复的情况下,确保线上服务尽可能少地受到影响。...8 线上故障处理的“后勤保障” 前面谈了线上故障处理的目标、思路和步骤,回过头来看下,要快速准确地定位和排除线上故障,需要很多基础设施支撑,它们是线上故障处理的“后勤保障”。...对于事件上报,一般的公司会有专用的通道给到一线客服人员,客户人员填报工单,上报事件,关键点在于事件处理中担任“路由”角色的人员,他需要对业务系统比较熟悉,对于上报的问题能快速确定相关的业务系统和负责人,

1.7K60

远离故障的十大原则

故障是运维人员永远的痛。相信每一个运维人员的KPI中都有一项:可用性。可用性高就是不出故障,各个公司对可用性和故障评级的标准都不相同,但是避免故障的方法却是殊途同归。...我们怎么避免故障,沃趣科技简单列举了以下几条,与大家共勉!...第6条,交接和休假最容易出故障,变更请谨慎。 这个是经验之谈。我们在总结故障的情况时,发现在公司部门有变化时,工作交接(不管是休假,工作职责变化还是离职),故障的出现频率会比正常情况下多50%以上。...运维的最高境界不是故障来了,泰山崩于前而不惊,苍老师勾引你而抗日;而是没有故障,让故障消失在萌芽之中。请给那些默默无闻,每天想着我们的系统还存在哪些隐患,怎么解决,怎么及早发现的运维人员鼓掌。...分析故障发生时的各种现象,确认故障的真正原因;了解变化趋势,发现故障的苗头,及早优化和调整。

1.1K60

微服务的故障处理

在复盘时,结论是增加上线审核流程和控制来试图阻止故障的再次发生,很少花费心思想想如何更加容易地在第一时间从故障中恢复过来。 在这次故障中我也做了一些思考,如果当时是我处理这起故障,我能做什么?...我们可以在试图阻止不可避免的故障上少花一点时间,而花更多时间去优雅地处理它。假定故障会发生,如果以这种想法来处理你做的每一件事情,为其故障做好准备,那么就会做出不同的权衡。...要有强弱依赖梳理工具,能够查询接口的调用链,根据业务场景去判断哪些接口是强依赖、哪些是弱依赖 强弱依赖接口治理:先去除没有必要、不合理的依赖;不影响核心业务的依赖全部变为弱依赖 ;弱依赖:增设降级开关...思考三、哪些功能业务上可以降级 构建一个弹性系统,尤其是当功能分散在多个不同的、有可能宕掉的微服务上时,重要的是能够安全地降级功能。我们需要做的是理解每个故障的影响,并弄清楚如何恰当地降级功能。...现在,让我们考虑从技术方面可以做的事情,以确保当故障发生时可以优雅地处理。 二 技术方面可以做的事情 在分布式架构下,准备好如何应对各种故障的发生是非常重要的。那么我们需要做什么来应对系统故障呢?

51110

JAVA异常处理原则

处理原则 Java异常代码中我们使用异常的目的是让异常的异常类型来提示“什么”被抛出了— 即出了什么问题;用异常的栈打印信息来跟踪异常在“哪里”抛出 — 即哪里出了问题; 异常提示信息来提示“...在对异常进行处理时,遵循以下原则可以有助于在调试过程中最大限度的使用好异常。...所以我们的处理原则是出现问题就及早抛出异常。...3.延迟捕获 延迟捕获说的是对异常的捕获和处理需要根据当前代码的能力来做,如果当前方法内无法对异常做处理,即使出现了检查异常也应该考虑将异常抛出给调用者做处理,如果调用者也无法处理理论上他也应该继续上抛...对于检查异常,一般先看能不能处理,能处理的异常使用try-catch 语句块捕获处理,不能处理使用throws 分类型抛出给上一级处理

1.2K00

接口级故障处理策略

接口级故障是指系统没宕机、网络也没有中断,但处理业务出现了问题。例如业务响应缓慢、大量访问超时、大量访问出现异常。...原因主要有: 内部原因 例如程序死循环、某个接口导致数据库慢查询、程序问题导致耗尽内存 …… 外部原因 例如黑客攻击、促销抢购导致访问量暴增、第三方接口响应缓慢 …… 解决接口级故障的核心思想:优先保证核心业务...适用于规模不太大的系统,如果服务器非常多,一台台的操作就比较麻烦了,耗时较长,因为故障处理是争分夺秒的。...熔断 降级是对自身故障处理,熔断是对外部系统故障处理,例如: ? 这时就需要熔断机制,B有问题时,A就不请求了,对B接口的调用直接返回错误,避免被拖死。...服务模块 负责调用业务处理服务,并返回处理结果。 小结 常用的4种接口级故障处理策略:降级、熔断、限流、排队。 降级,对自身故障处理。 熔断,对外部系统故障处理

1.1K20
领券