Google SRE之后的CRE,一起来看看吧

去年10月份,也就是2016年10月份,Google Cloud Platform Blog上更新了一篇文章,Google宣布了一个新的专业岗位,CRE,Customer Reliability Engineering,直译过来就是客户稳定性工程师,按说去年的文章也不是什么新闻了,不过看到国内还没有专门的文章介绍,我就尝个鲜简单分享下。

CRE产生的背景

这个岗位出现的主要背景,还是越来越多的用户选择在云上开展自己的业务,甚至是很多的企业和用户从原来传统的自运维的IDC机房,将业务迁移到云上,这样做其实就是选择相信公有云平台,但是同时也就放弃了对底层基础设施的把控,甚至把企业最为核心的数据也放到了云上,说简单点就是,一个公司的身家性命都交给公有云了。

从Google多年的调研和了解看,虽然绝大多数的公有云都宣称自己的稳定性多么高多么好,但是实际情况并非如此,而绝大多数企业级用户也因为自己的业务在云上,所说始终都有非常强烈的焦虑感。

其实,我们可以看下Netflix,虽然业务在AWS上,但是自打在AWS上遇到过几次严重故障后,就开始自己做稳定性保障的功能,我们熟知的Chaos Monkey这只猴子就是这么来的,进而发展到后来的Chaos Engineering这样一整套体系。

可以看到,Netflix秉承的Design For Faliure,自打一开始就选择在变化多端且自己不可控的环境下,加强自己系统的健壮性和容错度。

但是不是任何企业都具备Netflix这样的技术能力把自己打造的这么稳定,所以在云上不稳定的情况发生时,通常公有云客户是手足无措的,因为他并了解出了什么状况,不知道是自己的问题还是云上基础设施和基础服务的问题,也不知道自己应该要从哪里入手恢复业务,所以时间长了必然会非常地焦虑,十分地焦虑,各种的不放心。

Google CRE岗位的职责

所以,CRE出现的根本目的,就是消除客户焦虑,真正的站在客户的角度去解决问题,同时对客户进行安抚、陪伴和关怀。

通常的售后支持,都是你问什么问题,我就回答什么问题,能马上解决的就马上解决,不能解决的就转到后端处理,然后让客户等着,承诺多长时间内给出答复。流程标准,SLA执行严格规范,对于一般问题还好,真要是出现大问题,业务挂了,我都火烧眉毛了,你还跟个机器人一样,我问啥你说啥,或者你排查下对我说跟你没关系,让我自己再检查下,再或者转给后端处理,你先等着,这个体验就非常差了。

所以,CRE这个角色一定是站在客户角度解决问题,加入客户的War Room,帮助客户一起排查,问题不解决,自己也不会撤,同时还会随时通报进展,必要的时候会将故障升级到更高的级别,寻求更专业的资源投入共同解决,同时根据客户的不同反应进行不同方式的安抚。

同时,CRE还会发挥Google多年积累下来的非常宝贵的线上运维经验,在日常就跟客户沟通传递一些稳定性保障的知识。CRE还可以按照Google总结出来的类似SRE的标准规范,对客户线上系统进行稳定性标准的评审,并给出专业的建议,如果客户同意遵守这样的标准规范执行,在后续出现故障时,CRE就完全可以按照非常成熟的SRE的运作模式去协作用户处理故障,这样就会大大提升CRE和客户的协作效率,为故障快速处理赢得更多宝贵的时间,同时CRE也可以发挥更大的专业作用,而不是之前对客户系统不熟悉,空有一身绝世武功,却使不上劲。

所以,CRE这个角色,既具备良好的专业技术能力,又有非常强的问题解决能力,同时还要具有优秀的客户沟通和关怀能力。而且背后还有Google多年的全球最佳运维实践——SRE的经验和方法论支持,也可以让CRE这个角色发挥出更加独特的作用,这一点可能是其它一般的公有云厂商难以达到的。

最后

随着近些年云计算技术的深入发展,和公有云事业的不断拓展,运维领域的分工也在不断的精分细化,而每个细分领域的专业技术要求也越来越高,我想这是一个好的现象,让原来非常模糊的运维行业范畴,变得越来越清晰,越来越具体,也让我们从事运维行业的同事有了更多的选择。

及时了解业界的技术发展趋势非常重要,更加有利于我们掌控自己的职业发展方向和优势技能的发挥。

原文发布于微信公众号 - Forrest随想录(forrest_thinking)

原文发表时间:2017-11-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏速成应用小程序开发平台

速成应用告诉你线下实体店为何会选择微信小程序做营销神器?

“汉光百货是一个有着20年历史的百货商场,坐标在北京西单,我们是只有4万平米的单店百货,但我们年销售额有29亿元,有百余个品牌销量在同类商场中销量第一,商场常年...

15130
来自专栏微信小开发

小程能走网店模式?如何做分销模式的小程序?

小程序来势汹汹,已经是一种不可阻挡的趋势,不少商家早已加入了小程序电商的行列。但效果似乎不尽人意,毕竟小程序本来就有推广难、留存用户难、无法获取数据等“先天不足...

24480
来自专栏ThoughtWorks

什么是数字平台战略 | 洞见

传统企业正在面临IT新技术的挑战——单从“传统企业”这个居高临下的称谓,你就能读出“非传统企业”(也就是IT企业、互联网企业)满满的优越感。每天在各种新媒体平台...

35250
来自专栏CDA数据分析师

想入门数据分析,现在转行还来得及吗?

2014年,“大数据” 成为国内年度热词,并首次出现在当年的《政府工作报告中》。同年,数据分析也同样成为朝阳行业,数据分析一度霸屏各招聘网站。

18110
来自专栏云计算D1net

深入分析云计算所带来的商业策略

云计算最后只是一种真正的商业策略,而不是IT优化策略吗? 很可能是,因为新的调查表明了这一点。但这种新的云计算阶段意味着衡量、定义和概念化大局的事情将会变得更加...

29850
来自专栏罗超频道

BAT中为何只有阿里对YunOS五年不弃?

近日在阿里巴巴云栖大会上,YunOS正式发布了面向可穿戴设备的操作系统YunOS for Wear、YunOS开放平台和YunOS航海版light(3.2),这...

49790
来自专栏Python数据科学

转行数据分析的亲身经历

快两周没更新了,先跟大家说一下抱歉。最近生活上确实有点忙,不过后续将恢复正常。今天和大家聊一个非技术性的话题:转行。全篇无代码,但是我想对于这个话题,很...

20910
来自专栏AI科技大本营的专栏

不止20k,Python薪酬又飙升了?(内附转型指南)

Python 诞生之初就被誉为最容易上手的编程语言。进入火热的 AI 人工智能时代后,它也逐渐取代 Java,成为编程界的头牌语言。更有码农圈金句:「学完 Py...

44260
来自专栏人称T客

携程泪洒:数据丢失的风险不可估量

5月28日上午11:09,大家发现携程怎么“404”了?原来是携程遭受不明攻击导致官方网站及APP暂时都无法正常使用,携程上周以4亿美元收购37.6%的艺龙网也...

34780
来自专栏罗超频道

边缘计算成为下一个爆发点,云计算巨头和CDN巨头谁会赢?

在最近一次云栖大会上,阿里巴巴集团资深副总裁、阿里云总裁胡晓明宣布,IoT(物联网)正式成为阿里巴巴在电商、金融、物流、云计算后的主战略,而为了做好IoT,阿里...

54360

扫码关注云+社区

领取腾讯云代金券