首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【扯淡篇】故障觉醒力?

,我们是认真的,故障,我们更是认真的。故障,真的是最好老师,因此我才想写这篇文章! 最近互联网也是非常有意思,接二连三发生故障,让我们一起先回顾一下。...如果广义去看这个,我还会把它归结成问题。不过对于以上故障,从角度来说,我依然会说官方结论不够专业,希望内部不是这样哈。...4、故障发生后,仔细复盘 每一次故障发生后,人需要牵头去复盘故障,刚刚说了我们恢复是第一要务,所以故障根本原因我们可能还不知道,此时就需要、测试和研发一起仔细去看整个故障过程,看看到底哪儿有什么问题...是复盘首要负责人,复盘是为了找到根因(Root Cause),根因和故障现象不同,举个例子,故障现象是交换机故障,根因是因为技术架构没有对交换机故障做到容错,根因是对这种故障缺乏有效临时应对机制...你们真的重视故障了么?你们真的重视了么?故障不能带来春天,从根本上去意识到重要性,那才是人真正春天。

66811

linux

理解 shell 先来说下shell是什么,shell是Linux/Unix一个外壳,Linux/Unix通过shell与内核交互,shell接收用户或程序命令进而转化成内核明白命令,内核完成任务后再返回有用信息给用户或者程序...Linux服务器被黑遭敲诈,如何在3小时内紧急逆袭 作者介绍:陈浩,北信源研发工程师,五年Linux工作经验,热衷技术研究、实践和团队分享。...Linux上常用防火墙软件iptables命令 定义防火墙如何工作,这就是防火墙策略,规则,以达到让它对出入网络IP、数据进行检测。...看完就会用 GIT 操作图解分析 无论你是前端还是后台,无论是还是移动端研发,GIT 是逃避不了东西,当然你说你要用 SVN,那不在这次讨论范围之内。...: 第一种方法是在控制台中复制粘贴代码按回车,https://sublime.wbond.NET/ins...… 10 个非常有趣 Linux 命令 Linux 当中有很多比较有趣命令,

14K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    故障自愈——游戏终极福音

    报名请点击【阅读原文】 Chapter 1 【故障自愈思路及解决方案】 故障自愈对意味着什么 在游戏领域,各种专业化解决方案越来越成熟和丰富,各类自动化工具不断涌现,包含发布变更、容量伸缩等多种场景游戏云服务也在逐步优化和推广中...从团队核心价值来看,个人认为,相比起对各种操作需求,业务侧更需要提供是全面而高水平业务质量保障服务,包括对业务架构及部署优化服务,包括专业而精细化游戏健康度管理,以及快速故障处理服务等...故障自愈能够帮助业务第一时间查明问题原因、并马上恢复故障,后续还能帮助输出阶段性待优化问题形成闭环管理。...下面用几则典型案例,来说明自愈服务在告警分析收敛和故障自动恢复等方面的能力: 【案例一】 自愈收到了多条进程告警,经自愈分析后推定是发布变更未屏蔽告警导致批量进程端口告警,自愈将这些告警收敛成一个“疑似告警未屏蔽事件...同时,监控和自动处理完全做到了本地,告警分析收敛等功能实现起来更复杂,需要投入成本也会高很多。 使用自愈服务,可以非常轻松实现这种故障自动恢复。

    2.4K80

    Linux中排除网络故障时,必须要会Linux命令必看!

    来源:漫谈 接口信息 当你需要了解有关你登录设备网络接口更多信息时使用接口信息命令。...ip -4 a ip -6 a 查看网络信息另一种方法是使用 ifconfig,它比 ip 命令更容易阅读,显示信息量没有太大差异,一个显著区别是 ifconfig 显示一些基本传输 / 接收统计信息...ping -4 -c 3 192.168.1.10 某些防火墙配置为禁用 ping,但如果你有多个内部网络,我建议你在本地网络上允许 ping,即使你 ping 阻止了 WAN 地址,因为这对于故障排除非常有用...如果你担心如果你内部网络或 DMZ 之一受到威胁,会更容易发现网络上设备,则不允许从你内部网络向你 DMZ 发出 ping 或从你 DMZ 发出 ping,阻止进出 DMZ ping 有助于进一步隔离该网络...dig -x 8.8.8.8 系统解析命令 systemd-resolve 命令可用于检查当前 DNS 服务器设置为什么,当我在设置新内部网络或弄乱路由器上 DNS 设置时对 DNS 问题进行故障排除时

    89010

    远离故障十条原则

    线上更新要有回滚,在同样环境测试过再上线 是一门经验学科,是一门试错学科。永远要做最坏打算。不要寄希望于每次都有逆天好运气。...设备故障本来就是小概率事件。故障后,备份在失效。可以收拾东西,准备找下家了。 在说一次,不要寄希望于可有可无运气。重要事情说三遍。...这些帐户包括linux用户还包括数据库帐户 你sudo权限是否开放给了某些用户,这些用户是否安全 用户密码是否经常修改,是否加密不让具体人员直接看到,密码强度是否足够,密码重试次数达到一定次数是否黑名单...你生产环境和线下环境是否隔离,数据库是否和外网隔离 是否一些工作明明可在开发库和测试库做,却被放到生产环境上去了 是否有专门人员负责线上应用发布,从而避免开发人员接触生产环境 交接和休假最容易出故障...为了度过你个圆满假期,在离开之前,一定要交接清楚。最好有说明文档,而你文档越详细。休息过程中,被打扰概率越小。

    47920

    规范:线上故障处理流程模板

    流程机制故障发现后,On-Call SRE 或 故障指挥官 有权召集相应业务开发或其它必要资源,快速组织 事故处理小组。...如果问题和恢复过程非常明确,故障指挥官 仍然是 SRE 或 ,就不做转移,由他来指挥每个人要做具体事情,以优先恢复业务优先。...详细流程图```sequenceOnCall->故障:发现故障OnCall->OnCall: 初步分析故障原因OnCall->事故处理小组: 召集业务开发或其它必要资源事故处理小组->事故处理小组...: 事故反馈(10-15分钟一次)事故处理小组->事故处理: 事故排查OnCall-->高管: 问题疑难,影响范围很大,事故升级高管-->事故处理小组: 全权管理,进行下一步协商处理事故处理->事故处理...->事后总结: 组织故障复盘会议Note right of 事后总结: 总结原因,解决问题事后总结->事故处理小组: 输出会议总结,故障报告```COPY事故业务现象由谁在什么时间点报什么问题,尽量详细

    2.8K20

    Linux常见故障排查和处理33个技巧汇总

    作为linux,多多少少会碰见这样那样问题或故障,从中总结经验,查找问题,汇总并分析故障原因,这是一个Linux工程师良好习惯。...下面汇总了我做项目过程可能出现故障及解决方法,看看是否与你有共鸣,并对你有帮助?...看这错,我就问他是不是在windows下编写脚本,然后在上传到linux服务器……果然。...--- 二、故障排查汇总表 序号 故障点 分析与解决 1 Linux系统安装初始状态时,找不到硬盘,并无法进入下一步安装 进入COMS设置,找到硬盘设置相关选项,并设置为兼容模式 2 Linux系统安装时...《Linux云计算及高薪实战班》2018年03月26日即将开课中,120天冲击Linux年薪30万,改变速约~~~~ *声明:推送内容与图片均来源于网络,部分内容会有所改动,版权归原作者所有

    3.4K71

    掌握必备技能--问题故障定位

    如果我们有一套好分析工具,那将是事半功倍,能够帮助大家快速定位问题,节省大家很多时间做更深入事情。 2. 说明 本篇文章主要介绍各种问题定位工具以及会结合案例分析问题。 3....访问硬盘和访问内存之间速度差别是以数量级来计算,就像1天和1分钟差别一样。要监测 IO 性能,有必要了解一下基本原理和 Linux 是如何处理硬盘和内存之间 IO 。...网络 7.1 说明 网络监测是所有 Linux 子系统里面最复杂,有太多因素在里面,比如:延迟、阻塞、冲突、丢包等,更糟是与 Linux 主机相连路由器、交换机、无线信号都会影响到整体网络并且很难判断是因为...Linux 网络子系统问题还是别的设备问题,增加了监测和判断复杂度。...目前供职于滴滴基础平台部-技术专家岗位,主要负责分布式Ceph系统。个人主要关注技术领域:高性能Nginx开发、分布式缓存、分布式存储。 来源:简书,转载请联系作者获得授权

    1.2K20

    管理之线上故障处理原则

    同样,海恩法则也强调任何严重事故背后都是很多次小问题积累,当到一定量级后会导致质变,严重问题就会浮出水面。...应急目标 在生成环境发生故障时快速恢复服务,避免或减少故障带来损失,避免或减少故障对客户影响 应急原则 应第一时间恢复系统,而不是彻底解决呢问题,快速止损 明显资金损失时,要第时间升级,快速止损 指标要围绕目标...对数据库负载、慢查询、连接数等监控 对缓存连接数、占用内存、吞吐量、响应时间等监控 消息队列响应时间、吞吐量、负载、堆积情况等监控 定位问题 分析定位过程中先考虑系统最近发生变化,需要考虑如下几方面...故障系统最近是否上过线?...做了哪些事情,及时发生故障,也不会产生影响? 改进措施 根据回顾问题提出改进措施,以正式项目管理方式进行统一管理,采用 SMART 原则来跟进 参考 分布式服务架构原理、设计与实战

    2.1K30

    linux前景

    薪水前景: 总的来说,薪水普遍比开发人员略低一点。这是因为上手工作比开发门槛略低,市场上有很多运人员处于“会搭建服务”状态。...但是随着你个人能力提升,金字塔效应一样会很明显。各大公司都需要技艺高超人员,开出价格并不会比你同龄开发人员明显低。...目前我所遇到过薪水最高人员,薪资在40W左右,据说也有人在50W左右年薪,我目前没有见过50W,不敢妄下结论....如果有兴趣,建议大家读一下>这本书,对你做好自己职业规划有很大帮助. 学习路上,有童鞋所关注问题? 1. 行业加班多吗?...另外如果你要学Linux,最重要不是考虑你多大合不合适,好不好学问题,而是应该考虑自己要在哪个城市定居,如果在北上广深,立刻动身去学.如果是打算定居在三线四线城市,一定要先看看有没有合适你企业和工作再去学

    6.8K30

    IT 事件、故障排查处理思路

    针对这个故障,业务希望能否更快解决故障恢复,经理希望制定优化呼叫中心故障处理流程,做了以下几件事: 1、优先故障处理过程时间——”能通过鼠标完成工作,不要用键盘“ 2、提前发现故障,加强监控...1、常见方法: 1)确定故障现象并初判问题影响 在处理故障前,人员首先要知道故障现象,故障现象直接决定故障应急方案制定,这依赖于人员需要对应用系统整体功能有一定熟悉程度。...确认了故障现象后,才能指导人员初判断故障影响。 2)应急恢复 最基本指标就是系统可用性,应急恢复时效性是系统可用性关键指标。...有些人员认为应用人员没有能力去把应用系统本身内容了解得很透彻,所以应用人员在故障处理过程中地位很尴尬,人员掌握操作权,但却不知道应该操作什么。...对此,我认同应用人员不需要掌握应用系统业务功能,但我觉得就对应用系统本身来讲应用人员需要具备以下最基本能力: (1)知道应用系统这个是干什么,基本业务是什么; (2)知道应用架构部署、上下游系统逻辑关系

    3K30

    iptables交互配置脚本【Linux之道之脚本案例

    整个脚本是利用控制流(循环语句)实现一个交互效果,再利用判断和read来实现配置 虽然有200多行代码,细看其实结构很清晰明了,一看就懂!...同样可以用此结构来实现其他service配置,个人感觉交互式配置更直观、更简洁明了,我写了几个类似的交互配置脚本都经常在工作中使用 代码奉上,后面附个运行截图: #!...\033[0m" else if [[ "${num}" =~ "^[a-zA-Z]+$" ]]; then echo -e "\033[49;31;5m 请输入0-7中数字!...\033[0m" else if [[ "${aclnum}" =~ "^[a-zA-Z]+$" ]]; then echo -e "\033[49;31;5m 请输入0-4中数字!...\033[0m" else if [[ "${aclnum}" =~ "^[a-zA-Z]+$" ]]; then echo -e "\033[49;31;5m 请输入0-4中数字!

    74010

    linux中iostat命令_linux维和网络

    系列专题:Linux入门教程 ---- Linux系统中iostat是I/O statistics(输入/输出统计)缩写,iostat工具将对系统磁盘操作活动进行监视。...testsuite/sadist/iostat sysstat-10.1.5-19.el7.x86_64 : Collection of performance monitoring tools for Linux...实践 3.1 常用参数 [root@devvm ~]$ iostat -x Linux... avg-cpu: %user %nice %system %iowait %steal %idle...有时候可能会出现大于100%情况,这多半是计算时四舍五入引起,但如果是磁盘阵列等多盘系统,因为具有并发IO操作能力,也会出现大于100%情况。...svctm 一般要小于 await (因为同时等待请求等待时间被重复计算了),svctm 大小一般和磁盘性能有关,CPU/内存负荷也会对其有影响,请求过多也会间接导致 svctm 增加。

    9.7K30

    故障分析| Redis 故障诊断及常用命令—内存篇

    作者:任仲禹 爱可生 DBA 团队成员,擅长故障分析和性能优化,文章相关技术问题,欢迎大家一起讨论。...OOM 是 Redis 最常见内存故障,它影响很大: 故障发生时,进程并不会退出,能读但无法写入。...本文中,我会给大家分享下该种内存问题排查方向及命令。 Redis 内存消耗划分 ? 简短介绍下 Redis 内存消耗划分情况,为下文诊断提供思路。...⼀般该场景比较少见,常见于用到了 redis monitor 命令。 注意:monitor 命令功能像 MySQL general-log,能打印 Redis 所有执行命令。...实用命令 上文排查过程有些 Redis 命令我认为比较实用,整理如下: 模拟 Redis 压力相关命令 # 1.

    1.1K20

    请收藏 | Linux常见故障及处理 32 个锦囊妙计

    转自民工哥技术之路 说起来日常故障,其实,首先应该相到就是:“备份”、“备份”、“备份”。毕竟再怎么牢固系统或硬件都会有故障时候,所以,备份放第一位。...作为linux,多多少少会碰见这样那样问题或故障,从中总结经验,查找问题,汇总并分析故障原因,这是一个Linux工程师良好习惯。...下面汇总了我做项目过程可能出现故障及解决方法,看看是否与你有共鸣,并对你有帮助?...看这错,我就问他是不是在windows下编写脚本,然后在上传到linux服务器……果然。...’2010-12-2213:00:00′; ②在/etc/my.cnf里设置只保存N天bin-log日志 expire_logs_days=30//BinaryLog自动删除天数 二、故障排查汇总表

    1.3K30

    【Z投稿】故障管理思考:建立规范可遵循故障管理原则

    故障管理思考 文| Geekwolf ?...http://www.simlinux.com 《FastDFS分布式存储实战》作者,国内第一本《Ansible中文手册》译者、Flamingo、FMS作者 RHCA/RHCVA,混迹开源社区,专注高效...▲增强线上产品稳定性,提升SLA ▲问题总结,作为知识库 ▲完善故障问题检测监控 ▲为故障自愈提供依据 故障定级标准 为了衡量影响范围及影响程度,与PM、产品、开发共同确定统一判断标准,避免后期复盘故障出现推卸责任及无所谓问题...1.通过玩家反馈、监控告警以及计划内变更(如停服版本更新等),确认故障后,通知项目质量保障群 2.初步了解判断故障现象、范围及原因,通知开发、DBA等是否介入 3.根据故障影响确认处理优先级 4.定位...、处理故障 5.故障恢复后,若重大故障,开发、、DBA等分析复盘故障 6.改进方案、是否需要完善监控、应急措施 7.FMS故障管理系统记录故障故障处理过程、改进措施等 故障分析报告模板: ?

    89440
    领券