业务运维部门的岗位价值与DCOS

岗位价值有:

  • 权限缩小
  • 提供操作安全的保险服务
  • 提供操作的可扩展性
  • 提供业务和资源能见度
  • 屏蔽资源的部署细节
  • 静态资源调平
  • 动态资源调平
  • 故障处理和善后

权限缩小 通过配置文件修改一个后台参数需要登录权限,文件修改权限,甚至进程起停权限。这些运营环境的权限需要尽可能的收归到很少的人的手里以控制风险。业务运维初期以人工接口的方式提供服务,后期以web应用的方式提供自助服务。如果后台开发人员做得比较完善可以直接提供web应用提供自助服务。但是很多时候业务开发部门的主要 KPI 不是提供运维的方便性,所以使得业务运维部门需要自己去开发这些管理性质的 web 应用。 常规的新服务器上架版本发布都需要登录权限,文件修改权限等几乎不受限制的权限。运维提供人工接口或者web应用的方式把权限缩小之后对外提供服务。 提供操作安全的保险服务 操作安全可以量化为操作次数与操作引起的故障的比例关系。运维部门初期以认真仔细的工作态度提供高标准的操作服务。后期以高可重复性高一致性的自动化系统提供安全保险,把每一次都不大一样的人工操作变成每次执行相同的脚本由计算机执行。业务运维售卖的是一种保险服务,其实质和保险公司一样是以风险来核算成本的。 传统的操作安全也存在两点问题:

  • 即便是自动化的脚本并不能带来一致性的保障。因为每次执行自动化脚本都可能对现网状态产生影响,人工的手工操作会使之雪上加霜。实际上每次自动化执行之前的现网状态都可能不同,结果是一台服务器使用的时间越久运维风险越高。
  • 版本交付方式的多样化,操作现网环境的多样化极大地提高了风险系数。通过标准化版本交付方式,标准化进程和服务起停与依赖管理方式可以用一套自动化系统对接各种差异化的应用,减少中间的胶水脚本带来的操作安全隐患。携程出的运维事故说明了其操作安全是没有保障的。当我们把一个数据中心上的硬盘整体格式化之后,其上的应用多久可以恢复很好的度量了操作方面的水平。

低风险的操作是频繁变更的前提,也是提高业务敏捷性的前提。 提供操作的可扩展性 可以迅速地完成跨数据中心海量 IP 的操作变更 操作的完成速度是频繁变更的前提,也是提高业务敏捷性的前提。 提供业务和资源的能见度 与权限收归性质的后台 web 应用类似。理论上来说后台开发会提供一些管理类的界面去查看业务的运营指标,以及程序和资源效率方面的监控指标。但是因为业务部门的 KPI 是以收入为导向的。很多运营决策用的指标,性能调优性质的指标,故障判别类的指标都需要由业务运维部门来采集展示和告警。 屏蔽资源的部署细节 从 IDC 选址,专线规划到给进程配置文件配置 IP 地址。让开发人员关心逻辑与逻辑拓扑,屏蔽了部署细节,减少了开发的工作量。让昂贵的专业开发人员专注于更有价值的事情上。 静态资源调平 利用虚拟机,container,同机部署多个进程等各种手段提高主机的利用率。合理规划机架和出口分布,提高网络的利用率。 静态资源调平主要靠优化部署来完成。两次调平之间一般需要调用比较慢的重部署流程(比如ssh执行脚本起停进程等),甚至可能包含人工操作环节。 静态资源调平的颗粒度是 IP。 动态资源调平 动态资源调平一般说法是动态扩所容。和静态资源调平的主要的区别是一般不以部署流程去调平资源,而是以更快的调整负载均衡,起停进程的方式完成,完全不能包含人工操作环节。 动态资源调平要求运维必须从 IP 级别的管理水平提高的到进程和服务级别。 故障处理和善后 大部分时候业务都会提供高可用的系统。运维仅需要在故障之后,对故障机做重启或者下架替换等善后操作。有的时候,运维需要以冷备和自动切换的方式提供等级弱一个级别的可用性保障。 故障处理时,运维需要进程初步的故障定位。进程和服务的依赖管理可以帮助运维定位到问题。 数据中心操作系统(DCOS) 以 mesosphere 和 hashicorp 等新一代创业公司为代表,开始提出数据中心操作系统(DCOS)的概念。实质上是复制了 google/twitter 等大公司的标准化运维系统。 数据中心操作系统(DCOS) 提供方的愿景是提供一个通用的标准化运维系统高效率可靠安全地管理数据中心。直接与开发方对接,以 docker 容器等标准化的方式交付版本,以进程和服务描述的方式标准化搭建进程和服务。数据中心操作系统与开发方有一个非常清晰和低成本的接入接口,完全省去了运维这个角色写胶水脚本的必要性,从而彻底颠覆这个岗位。 运维目前需要开发的操作和监控类的 web 应用不再需要定制开发,数据中心操作系统(DCOS)提供可定制的操作和监控模块,只需要配置就可以接入,形成 web 应用,不需要代码开发。 当一家DCOS的产品公司可以低成本的与各种中小开发商对接之后,中小开发商可以大幅裁剪运维部门。而DCOS公司可以获得可观的经济收益,从而进一步地开发更完善的产品。DCOS实现的技术关键在于,docker的标准化版本交付技术,smartstack为代表的路由托管技术使得不标准业务改造为标准业务的成本急剧降低。 puppet/chef 是让运维写脚本编程写cookbook。而DCOS则可能直接让写脚本地这个胶水岗位消亡。DCOS显然比 puppet/chef 等公司更具有颠覆性。

原文发布于微信公众号 - 马哥Linux运维(magedu-Linux)

原文发表时间:2015-06-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏最新活动整理

腾讯云主机的特点和优势

很多朋友都想买腾讯云主机,但是对腾讯云主机的优势和特点缺乏一定的了解,腾讯云主机有什么特点?腾讯云主机有什么独特的优势呢?今天,简单总结下腾讯云主机的优势和特点...

4410
来自专栏云计算D1net

如何构建一个私有存储云

企业构建内部云存储时必须考虑弹性,选择正确的平台,并允许工作流,堆栈部署和公共云集成。 每个云存储选项都有其优点和缺点。企业需要根据自己的具体需求,规模大小,以...

3496
来自专栏WeTest质量开放平台团队的专栏

双十一临近,电商产品如何保持最优的性能体验?

十一月临近,一年一度的电商大戏“双十一”又将隆重出场,目前各大商家已经开始各类优惠券的发放,各类大促的商品表单也已经提前流出,即将流入各个用户的购物车中。

1212
来自专栏WeTest质量开放平台团队的专栏

双十一临近,怎样让买家流畅地秒杀? ——腾讯 WeTest 独家开放电商产品压测服务

从拍脑袋到场景化压测,双十一的现象级大促从来不是一蹴而就。

2880
来自专栏云计算D1net

如何为混合云工作负载找到适合的场合:5个安全问题

一旦开始部署实际工作负载,使用真实数据和实际流程,就会发生一些变化:某些数据以及其中一些过程会很敏感。那么企业应该如何决定将工作负载放在哪里,一旦他们部署在那里...

840
来自专栏web前端教室

【流行】现在前端流行的技术是哪几种?

其实从根本上来讲,前端开发过去、现在、将来,至少在可能预见的将来,有且只有三种技术,就是html、css、js,其它的都是围绕着这三种技术在打转。

1503
来自专栏云计算D1net

如何与多个云供应商更好的合作

企业在与多个云供应商合作之前,需要评估他们的计算,存储,安全性,以及更多的服务。 企业必须从多个云提供商中进行选择。亚马逊网络服务公司无疑是最大的行业巨头,而微...

3669
来自专栏IT大咖说

经历了研发困局、运维之痛,同程微服务从1到1w的旅程

内容来源:2017 年 9 月 9 日,前同程艺龙架构师谢康在“ArchData技术大会上海站”进行《同程微服务从1到1w的旅程》演讲分享。IT 大咖说(微信i...

1623
来自专栏hadoop学习笔记

DKHadoop大数据平台架构详解

大数据的时代已经来了,信息的爆炸式增长使得越来越多的行业面临这大量数据需要存储和分析的挑战。Hadoop作为一个开源的分布式并行处理平台,以其高拓展、高效率、高...

2710
来自专栏腾讯云数据库(TencentDB)

Redis云端架构深入浅出

作者介绍:邹鹏,腾讯云数据库Redis产品负责人,多年数据库、网络安全研发经验。在网络、计算、存储、安全等领域有深入的研究和丰富的产品化经验。 在Redis、M...

9.9K15

扫码关注云+社区

领取腾讯云代金券