运维与自动化运维发展概括

1、运维自动化发展 运维学习和发展的一个线路: 1.搭建服务(部署并运行起来) 2.用好服务(监控、管理、优化) 3.自动化(服务直接的关联和协同工作) 4.产品设计(如何设计一个运维系统) -----当下云计算的核心竞争力是运维! 系统架构师(偏管理):网络 系统 数据库 开发 云计算 自动化 运维管理 服务管理 项目管理 测试 业务 -----专注于某一领域

2、运维自动化发展 运维工作内容分类: 监控运维(7x24运维值班、故障处理) 应用运维(业务熟悉、服务部署、业务部署、版本管理、灰度发布、应用监控)

安全运维(整体的安全方案、规范、漏洞检测、安全防护等)

系统运维(架构层面的分布式缓存、分布式文件系统、日志收集、环境规划(测试、开发、生产)、架构设计、性能优化) 基础服务运维(包含运维开发)(内部dns、负载均衡、系统监控、资产管理、运维平台)

基础设施运维(系统初始化、网络维护、负责设备上下架、巡检、报修、硬件监控)

3、运维自动化发展 标准化: 物理设备层面: 1.服务器标签化、设备负责人、设备采购详情、设备摆放标准 2.网络划分、远程控制卡、网卡端口 3.服务器机型、硬盘、内存统一。根基业务分类 4.资产命名规范、编号规范、类型规范 5.监控标准 操作系统层面: 1.操作系统版本 2.系统初始化(dns、ntp、内核参数调优、rsyslog、主机名规范) 3.基础agent配置(zabbix agent、logstash agent、saltstack minion) 4.系统监控标准(cpu、内存、硬盘、经常) 应用服务层面: 1.web服务选型(apache、nginx) 2.进程启动用户、端口监听规范、日志收集规范(访问日志、错误日志、运行日志) 3.配置管理(配置文件规范、脚本规范) 4.架构规范(nginx+keepalievd、lvs+keeplievd) 5.部署规范(位置、包命名等) 运维操作层面: 1.机房巡检流程(周期、内容、报修流程) 2.业务部署流程(先测试、后生产、回滚) 3.故障处理流程(紧急处理、故障升级、重大故障管理) 4.工作日志标准(如何编写工作日志) 5.业务上线流程(1.项目发起2.系统安装3.部署应用4.解析域名5.测试6.加监控7.备份) 6.业务下线流程(谁发起,数据如何处理) 7.运维安全规范(密码复杂度、更改周期、vpn使用规范、服务登录规范) -----目标:文档化

4.运维自动化发展 工具化: 1、shell脚本(功能性(流程)脚本、检查性、报表性) 2、开源工具(zabbix、elkstack、saltstack、cobbler) 目标:1、促进标准化的实施 2、将重复的操作,简单化 3、将多次操作,流程化 4、减少人为操作的低效和降低故障率 工具化和标准化是好基友 痛点: 1、至少要ssh到服务器上执行,可能犯错 2、多个脚本有执行顺序的时候,可能犯错 3、权限不好管理,日志没法统计 4、无法避免手工操作 例子:比如某天我们要对一台数据库从库进行版本停机升级,那么要求进行评估 统计影响:晚上3点有定时任务连接该数据库,做数据报表统计 1、凌晨3点我们所有系统的定时任务有哪些 crontab 2、这些crontab哪些连接我们要停止的从库 3、哪些可以停,哪些不能停(修改到主库),哪些可以后补 4、这些需要后补的脚本哪个业务、谁加的、什么时候加的

5.运维自动化发展 web化

运维平台: 例子: 1、做成web界面 2、权限控制 3、日志记录 4、弱化流程 5、不用ssh到服务器,减少人为操作造成的故障 dns web 管理 bind-DLZ 负载均衡web管理 job管理平台 监控平台 zabbix 操作系统安装平台 6.运维自动化发展 服务化(api化) dns web 管理 bind-DLZ dns-api 负载均衡web管理 slb-api job管理平台 job-api 监控平台 zabbix zabbix-api 操作系统安装平台 cobbler-api 部署平台 deploy-api 配置管理平台 saltstack-api 1、调用cobbler-api安装操作系统 2、调用saltstack-api进行系统初始化 3、调用dns-api 解析主机名 4、调用zabbix-api该新上线机器加上监控 5、再次调用saltstack-api部署软件(nginx-php) 6、调用deploy-api将当前版本代码部署到服务器上 7、调用test-api 测试当前服务运行是否正常 8、调用slb-api将该节点加入集群 7.运维自动化发展 智能化

智能化的自动化扩容、缩容、服务降级、故障自愈 触发机制-》决策系统(决策树)-》 1.zabbix触发Action 触发: 1、当某个集群的访问量超过最大支撑量,比如10000 1.1、cpu使用率达到xx。内存使用率达到xx 2、当持续5分钟 3、不是攻击 4、资源池有可用资源 4.1、当前网络带宽使用率 4.2、如果公有云--钱够不够 5、当前后端服务支撑量是否超过阈值,如果超过应该后端先扩容 6、数据库是否可用支撑当前并发 7、当前自动化扩展队列,是否有正在扩容的节点 8、其他业务相关的 之前:先判断buffer是否有最近x小时,已经移除的之前创建的虚拟机,并查询软件版本是否和当前一致,如果一致跳过2、3、4步骤,如果不一致掉过2、3步骤 2.openstack 创建虚拟机 3.saltstack 配置环境--------》监控 4.部署系统部署当前代码 5.测试服务是否可用(注意间隔和次数) 6.加入集群 7.通知(短信、邮件) 自动化缩容: 1.触发条件和决策 2.从集群中移除节点----》关闭监控--》移除 3.通知 4.移除的节点存放在buffer里面 5.buffer里面超过一天的虚拟机,自动关闭,存放于xx区 6.xx区的虚拟机。每七天清理删除

8. 运维自动化发展 基于ITIL的运维管理体系 成为一名运维经理: 技术: 运维知识体系 除了技术: 1.服务管理 ITIL 2.项目管理 PMP 做人

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏逍遥剑客的游戏开发

从Native到Web(五), emscripten学习笔记: 初体验

1383
来自专栏北京马哥教育

如何构建高扩展性网站?

本篇通过阅读《高扩展性网站的50条原则》,总结出以下内容。   一方面博主没有实际的架构经验,另一方面知识面也不够宽阔,所以只能系统的总结书中的要点,并根据自...

2734
来自专栏EAWorld

以服务网格实现微服务的高级Traffic-shadowing模式

作者:Christian Posta 译者:月满西楼 原题:Advanced Traffic-shadowing Patterns for Microser...

2913
来自专栏网站设计制作、数字营销

网站在百度搜索结果中被标识危险什么原因

在日常的百度搜索中,会有时发现在搜索结果中出现有的网站快照索引被百度标识为危险标识风险提示,发生这样的风险提示是什么原因?公司网站在百度搜索结果中出现这样的情况...

1300
来自专栏BIT泽清

App Store审核成功解决2.1大礼包被拒后,通过最后一关的元数据被拒分享

最近这周帮一个客户上线一个棋牌游戏的项目,已经被3.2.1过后处理成功,又出现了2.1大礼包App完成度的问题;经过连续2天的加班通宵(当然是团队伙伴们车轮战拉...

5619
来自专栏阮一峰的网络日志

软件架构入门

软件架构(software architecture)就是软件的基本结构。 合适的架构是软件成功的最重要因素之一。大型软件公司通常有专门的架构师职位(archi...

2684
来自专栏Netkiller

打破软件自动化测试的格局

打破软件自动化测试的格局 自动化测试的误区 自动化测试仅仅被认为是替代人工,所以我们看到很多企业实施自动化测试仅仅是将现有的 Test Case 转换成自动化脚...

3645
来自专栏维恩的派VNPIE

vn.py的底层实现机制——回测及参数优化

前几天介绍了vn.py实盘部分的底层实现机制,这一篇将为大家介绍数据以及回测部分的底层实现机制。

1862
来自专栏云计算D1net

企业内部部署IaaS经验之谈

1.虚拟机(VM)的操作系统和应用程序必须是被锁定的,同时必须使用现有的规则进行正确的配置,如来自于互联网安全中心(CIS)的指导准则。 2.确保虚拟环境安...

3037
来自专栏技巅

docker解决数据存储问题的方案

1787

扫码关注云+社区