前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >运维黑科技

运维黑科技

作者头像
SRE运维实践
发布2019-07-08 13:29:25
5680
发布2019-07-08 13:29:25
举报
文章被收录于专栏:SRE运维实践SRE运维实践

序言

做为一个运维,总是看各种运维黑科技,今天看到了一种黑科技,简直是震撼人心,相当专业,分享一下。

是谁给你的勇气?梁静茹嘛。

风言风语

曾经看到的一个运维黑科技是,我要去吃饭,你故障了关我啥事,还特意强调几遍,我要去吃饭了,不要打扰我。

简直就是一脸懵,想想也是,不吃饭哪有力气处理故障呢,是吧,人之常情。工作也是为了生活,生活都不好,还有心情处理故障,棒棒的。

又现黑科技,不同的场景,相同的科技手法。

告警短信频发,上来就把告警关闭,然后再处理。不清楚告警影响范围,没有通知相关的人员进行排查,上来就关闭告警,这是什么操作。

就像有个人突然摔倒了,在那大喊,我腿疼,我腿疼,然后来了一个穿白大褂的医生,上来就说,用胶带把嘴封起来,不准叫,让我来查查哪里疼。然后一不小心,这孩子的爸爸听到了孩子的叫声,跑过来问,我儿咋了,刚刚听见喊救命了。

太多的借口,太多的理由,无非是为了怕出事,掩盖故障是一项黑科技,突然看到这种操作,简直是一脸懵,心脏都开始跳动了,太牛逼的操作了。

断桥残雪花最美。

运维黑科技,专业运维的核心竞争力,这波操作太让人留恋。

成长是一种游戏,勇敢的人先开始,干了这杯烈酒,出了故障一起背。无论你扛得住与否,不能回头。

如果是你?你会怎么处理?

一般的做法是看见告警,确定影响范围,汇报,对于重大故障,汇报并召集人手,开始应急处理;相对好的做法就是,点一个按钮,发送告警已收到,正在处理中,恢复完成之后,点一个按钮,发送系统已恢复,原因是啥啥啥;更好的做法是,系统检测到问题发生,自动去处理,检测到某关键服务有问题,发送告警短信,某某机房整体宕机,需要立即将流量进行切换到灾备机房,请登陆某某系统进行切换,故障倒计时20分钟(ups一般能撑30分钟),切换完成后,发送恢复信息,某机房掉电,已经手动进行切换流量,暂无故障发生;当是一个一般的服务的时候,会记录一条告警信息,保存相关的日志,记录某某系统因为内存泄漏已自动重启,业务失败请求404个。

当你压力大的时候你会想起谁?想我没用,想想自己的团队,哈哈哈

运维,解决问题的能力是核心竞争力,随着东西越来越多,你会发现除了你是运维,其他你啥都不知道,不会,不懂,脑子一片空白,脑子呢,你快回来,哈哈哈

所以呢,单纯的运维一般面临的场景就是,不要你的时候屁用没有,要你的时候,哎哟,真的没屁用,好尴尬。

所以呢,还是多看看自动化运维吧,毕竟系统比人可靠,系统的不会误操作,系统不会说谎,系统会扛住很多风险,系统会帮你做很多很多事儿。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-02-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 SRE运维实践 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
短信
腾讯云短信(Short Message Service,SMS)可为广大企业级用户提供稳定可靠,安全合规的短信触达服务。用户可快速接入,调用 API / SDK 或者通过控制台即可发送,支持发送验证码、通知类短信和营销短信。国内验证短信秒级触达,99%到达率;国际/港澳台短信覆盖全球200+国家/地区,全球多服务站点,稳定可靠。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档