文章来源:本文根据嘉为蓝鲸2021研运治理实践大会嘉宾李方园的演讲总结得出
作为近年热词的SRE自被提出以来,引起了各方的关注和思考。随着技术的迭代,在基础运维、云计算运维的基础上,SRE工程师更多地关注工具化、流程化的建设,更进而地去思考平台化,体系化,全面化的技术栈设计。在业务侧的推动下,企业对敏态效率和稳态安全的全面关注;对保障稳定和质量同时控制成本、提升价值和效率等多方面的需求都对SRE在企业的内部落地提出了更高和更针对性的要求。
美国的数字化服务公司Mikey Dickerson对SRE运维体系架构提出了以下的金字塔理论。总的来说,SRE运维是以用户体验为最终目标,在保证持续沟通的基础上以业务为导向,为企业数字化赋能。
因此,SRE工程师的工作重点可以总结为以下四点:
从根本上看,提升业务联系性可以通过两个方式:
加强应用及架构健壮性管理,即令连续时间更长,减少无故障时间;
保证运维有效性管理,即令不可连续时间更短,降低故障持续时间。
建设的关键步骤可以分为以下几点:
关键一:构建运维管理基石—配置管理
标准化是后续自动化、数据化、智能化的基础。优先建设好CMDB,关注配置数据是为构建运维管理打下的坚实基石。而CMDB作为在CI、CD和CO领域共需的架构,以业务为导向,搭建一套可视、可信、可管、可用的配置管理体系。
关键二:建设可观测的监控能力—监控中心
在有效获取数据后,需要建设一个“抓得到、看得见、搞得定”的监控体系。将底层不同的设备对象进行全面覆盖,同时整合既有监控告警工具,实现一体化管理,向上以有效的方式进行展示和处理。
关键三:构建故障全生命周期管理提升业务连续性
在业务连续性管理场景下,企业可以围绕故障预防、故障处置、故障运营,建立数字化管理,实现运维服务闭环,提升全局故障治理能力。
关键四:个性化开发工具助力SRE平台设计
SRE运维的关键在于高度的工具化和自动化,同时工具需要满足企业灵活多变的业务需求场景和个性化的建设要求,所以需要构建一套门槛低、灵活性强的工具开发能力。
围绕业务连续性需求及关键点,嘉为蓝鲸基于腾讯蓝鲸智云平台构建了如下能力:
融合联动:有效融合资源管理、监控告警、工单、知识库、自动化的能力,实现故障全生命周期管理;
简单易用的一站式运维平台;
运维知识与最佳实践驱动:包括常见CMDB模型、标准监控插件、最优告警策略、故障处置预案、脚本库及知识库;
持续改进:基于腾讯蓝鲸智云的生态可持续发展,以及嘉为蓝鲸300+行业头部企业落地经验的持续回流。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。