前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >运维之殇

运维之殇

作者头像
用户2936994
发布2018-08-27 10:53:54
4200
发布2018-08-27 10:53:54
举报
文章被收录于专栏:祝威廉祝威廉

引子

早上醒了,百无聊赖,刷了下微博,一微博号发了如下一条信息:

今天就发生2起故障,连续受惊。国内外有没有运维天王写的什么书或者资料学习一下啊。我现在这个情况怎么提高了,搞来搞去也是小学生水平。叹息阿,现在估计要从大厂招一个天王级运维,没有80万是拿不下了

后有一资深专家总结的很精辟:

运维工作无非三大块,配管、监控、数据分析。@itnihao 的zabbix 的书、@守住每一天 puppet相关的,已经@argv 的ETL Stack相关的书。 我觉得@梁斌penny 都可以看看。像google的sre book啊,更早之前yahoo的webops book啊,层次虽然更高,落地还是要实在点。当然鸟哥私房菜肯定是基础

不过显然是从运维工程师的技能出发点来说的。而原博的诉求点显然是:

  1. 自己学习还是有难度的
  2. 请大厂运维现在又太贵了
  3. 我实在是好纠结,好难受。

让人推荐快速学习的方式,却也是极度无奈之举。而且运维也不是一日练成的。就算大师提供了很好的指导,也终究是拿自己的线上产品练手了,这样显然是得不偿失的。现如今,一个创业公司的产品不稳定,造成的问题是巨大的。比如摩拜单车最近就故障频仍,造成的不良影响其实是非常大的,但是因为整个市场发展是往前走的,倒不会因为一两次的故障而改变这种趋势。但是如果没有这些故障,想必会更好吧。

问题在哪里

运维理论上不应该那么依赖于人的技能。但是现实情况是,你必须要有好的运维 才能保证系统更加稳定。而对于一个初创企业,显然陷入了一个困难的处境。如何让一个普通的开发也能搞好的运维呢? 核心是一个

一站式的的运维平台

按前面那位大神说的,运维无外乎三大块:

  1. 配管
  2. 监控
  3. 数据分析

我再加一个:

  1. 部署(包括扩容)
  2. 配管
  3. 监控
  4. 数据分析

应用的生命周期管理自然是包括在每一个大块里的。满足这四点的运维平台其实就是一个分布式操作系统。 Zabbix 你可以认为是特定的一个视窗软件,Puppet 可以认知为分布式shell。ELK则是基于这个分布式操作系统的一个分布式日志应用。ELK是高度灵活的,所以每个人玩法一样,但是做实施起来迥异。我所看到的是ELK的实施难度还是颇高的,ELK如果想做轻松了,其实还连带一系列要求的,比如日志的规整化。而且里面除了E以外的模块,都是在特定场景需要替换的。

然而似乎现在运维界缺乏这么一个分布式系统。导致普通开发无法像在windows操作系统一样,点击点击就可以管理起所有服务器以及各种应用了。

问题解决之道

工具化是王道。然而如何工具化是难点。方向不对,谬以千里。比如运维之前也做过大量的工作,做了各种工具,但是存在我之前在 运维=平台+数据

提到的问题:

  • 工具碎片化
  • 工具难以标准化
  • 工具不可复制
  • 生态积累难度大

分布式系统基本就可以解决这些问题了。分布式系统自己可以解决部署,配管,以及部分监控。数据分析则需要基于分布式系统之上的应用解决(基于该分布式系统调教出来的ELK套件)。这样,基本就完美解决了所有的问题。分布式系统提供了一个一致的交互界面-web。同时也暴露了底层的分布式shell引擎以及可供应用交互的系统层级API。

这块这两三年我们已经有了一定的实践。期望未来能够很快推出,造福大家。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2016.10.05 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引子
  • 问题在哪里
  • 问题解决之道
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档