近两年,运维人需要面对不断涌现的新兴技术和架构转型的要求,例如企业上云、分布式、容器化、双中心双活等等。随着传统企业把更多的业务向线上化和数字化发展,IT运维也面临着业务模式改变随之而来的更多要求。做好运维,除了学好新技术,更需要从运维理念、运维方式和运维视角转变等方面去适应变化。以下是我个人的一些思考。
我一直把运维团队的定位是在技术服务团队,个人也要朝着技术服务的方向去发展。单纯的服务定位对整个团队的发展不是非常有利,会逐渐沦为救火队员和保姆的角色,有点高级人员干着低级的活的感觉。
之前接到一位客户咨询,说自己是300人的公司,4名运维人员。负责桌面支持,网络,视频等所有it工作。有什么办法能提高并量化it运维效率。为他解答的过程自己也整理除了一些思考,和大家一起聊聊。
随着企业信息化的不断发展,运维人员需要面对越来越复杂的业务和越来越多样化的用户需求,不断扩展的应用需要越来越合理的模式来保障运维服务能灵活便捷、安全稳定地持续。
********本文是BLUES【公众号ID:bluemidou】向老王约稿,特授权blues独家首发,现转载如此,哈哈********
转载声明:本文转载自「FineOPS」,搜索「FineOPS」即可关注。 当下企业很多都热衷于建设运维自动化、智能化,通过技术革新代替繁杂的手工运维,提高生产效率的同时最大程度的减少人为失误。但是如何
自动化运维是一个人让人兴奋且易失控的话题!兴奋是因为我想作一次尝试,把它的全貌和细节说清楚;易失控是因为涉及点太多,一则怕遗漏,二则怕顾此失彼。带着这份复杂的心情,我们来一次自动化运维的解析之旅吧。
摘要 优云软件解决方案中心总监童华权为我们带来优云作为国内在运维领域做得比较深刻的厂商,在运维管理方面的一些见解。 运维面临的挑战 数据中心进入“两化转变” 数据中心转向“两化转变”,技术架构层面随着
任何的管理活动中都有流程,IT运维管理也是。而在企业中流程管理的工具很多,常见的有OA、BPM、专用工作流平台,以及一些管理系统中也会自带流程模块(如:HR系统、ITSM系统)。
一、缘起 软件工程有的时候与养孩子有点相似:虽然生育的过程是痛苦和困难的,但是养孩子的过程才是真正需要花费大部分精力的地方。在现实中,我们却发现人们往往将绝大多数的精力与资源花费在了讨论如何构建软件方面,而其后续的可维护性方面的工作却考虑的极少。我们在大学软件工程课程中也学过,从软件生命周期的角度看,软件开发阶段只占整个生命周期的20%~30%,软件运行维护阶段才是最长尾的,这个规律放在现在仍然适用。从以上的视角来看,在软件工程行业,至少应该有两类职业:第一类职业专注于设计和构建软件系统,另外一类职业就是专注于整个软件系统生命周期的管理。从其设计开始一直到部署、运行,历经不断改进,优化,最后退役为止。就是这样一类职业,它和其他的职业的专注点不同且必须具备非常广泛的技能,我们将它称之为IT Operations。 二、运维是什么 运维,英文原文是IT Operations翻译过来就是IT运维,根据中文,对“运维”这个词进行拆解就是“运行+维护”。这个拆解隐含了对运维工程师工作职责的最基本要求。那么到底什么是运维呢?在我的理解,运维即服务,好的服务体系是系统稳定运行的坚实基础和有力保障。我们的工作职责就是保障生产系统的安全、稳定、可靠的运行,确保服务7*24小时不间断。 三、运维的价值 运维的价值主要体现在如下几个方面:提高业务运营质量、用户满意度,保障系统安全、稳定、可靠的运行及服务的可用性,降低业务运营成本,在提高IT服务质量的同时为企业与客户创造更多的商业价值等。 四、谈谈我们的工作 (一)岗位要求 运维是一个融合多学科(网络、操作系统、数据库、中间件、开发、测试、安全、协议、算法、数据结构、架构、存储、强弱电等)的综合性技术工种。一名优秀的运维工程师,需要在多个技术领域中,精通某几项技能,才能够胜任该工作,同时还要对业内前沿技术发展趋势实时跟进、掌控。 (二)人员素质要求 良好的沟通表达能力、工作认真仔细,注意细节、能够扛得住较大压力、知识面广、有较强的责任心,工作态度端正,积极主动,执行力强、学习,创新能力强、极强的安全意识和对问题刨根问底的精神。 (三)岗位职责 以系统稳定性为目标,负责系统的可用性、性能、效率、服务请求、变更管理、监控、应急响应和容量管理等工作。 (四)工作内容 日常主要工作内容如下:服务级别管理、能力管理、业务连续性管理、事件管理、问题管理、变更管理、配置管理、发布管理、备份管理、容量管理、可用性管理、安全管理、知识管理、系统监控、例行巡检、性能优化、应急响应、问题处置、生产问题复盘、服务请求、IT架构规划设计、系统部署、双活建设、容灾建设、切换演练、系统软件升级及补丁修复等工作。 (五)运维服务体系建设 运维作为一个细分的IT专业领域,在运维服务体系建设方面是有技巧和章法的。一个好的运维服务体系的建立是需要一个懂运维的管理者花费很多心思和精力,经过反复的打磨,不断改进构建起来的,绝非凭空起高楼。一般业界会参考借鉴ITIL与业务连续性管理BCM,ISO 22301等体系标准来构建适合于企业自身的运维体系。 一般情况下一个好的运维服务体系建设应遵循如下原则: (1)以完善的运维服务制度、流程为基础; (2)以先进、成熟的运维管理工具为手段; (3)以高素质的运维服务团队为保障; (4)以科学合理的考核指标为导向。 具体落地措施如下: (1)制定运维服务标准与规范; (2)搭建运维服务台,全方位接受服务请求; (3)规范事件管理,建立完善的突然事件应对机制; (4)规范问题管理,建立故障分析的长效机制; (5)规范变更管理,建立谨慎的变更管理机制; (6)收集基础资料,建立完备的CMDB管理系统; (7)制定绩效考核办法,加强监督检查,严格考核运维人员。 (六)运行无间最佳实践之运行保障示例 (1)问题预防 对即将投产的系统进行评审,从系统的健壮性、可扩展性、可维护性及部署规范等方面进行评审是否满足上线的标准和要求。 对每天的变更与应用发布进行集中评审,严格按照变更与发布的标准与变更红线进行审核是否满足投产条件。 按照运维计划,定期组织实战切换演练,模拟生产故障,验证系统的健壮性以及提高运维人员的应急处置能力。 (2)运行监控 监控是运维人员的眼睛,能够帮助运维人员快速发现定位问题,减少业务中断时间,提高故障处理效率。目前业内均已实现全维度监控,也就是说运维人员要从各个维度监控系统的健康状况,比如IDC机房、网络、存储、操作系统、数据库、中间件、应用、系统和业务层面。运行监控人员会7*24小时进行值守,一旦系统抛出告警,值守人员确保5分钟内电话通知到一线运维人员及时介入处置。 (3)故障响应 一线运维人员在接到告警后,会进行初步的判断,对业务的影响,是否需要进行升级,是否需要协同其他条线或者二线专家的介入。 (4)故障
IT运维服务管理中的知识主要包括IT服务相关的管理制度、流程,软件开发文档、网络拓扑图等技术资料,针对不同问题和事件的解决方案,IT运维过程中产生的测试方案、技术方案、变更申请等。
需要思考这个问题的原因,是因为AIOps不是到了某一个点就突然质变的,而是在持续演进过程中实现的。随着算法的日益成熟,整个运维体系也在改进的过程中逐渐完善,AIOps的道路才会慢慢清晰。因此,在达到目标之前,我们需要仔细规划怎么做才能更快实现AIOps。
【名词解释】 腾讯数据中心经理:负责腾讯IDC整体运营管理和属地化管理工作,下文简称“数经”。 腾讯IDC运维工程师:负责腾讯IDC日常IT运维(服务器、网络)、IT资产管理或者IDC基础设施运维,主要分为服务器运维工程师、网络运维工程师、资产管理员、IDC基础设施运维工程师。下文简称“运维工程师”。 【前言】 2015年06月05日,首届腾讯IDC运维工程师培训与认证在深圳总部腾讯大厦圆满落幕,首批参训学员共计20人,其中18位学员通过了“腾讯IDC运维工程师(初级)”认证。此次活动获得了IDC平台部领导
首先祝贺你选择学习Linux,你可能即将踏上Linux的工作之旅,出发之前,让我带你来看一看关于Linux和Linux运维的一切。
https://cloud.tencent.com/developer/article/2303903 运维管理与运维自动化一文中我们从运维工作中提取了运维框架(红色代表缺失),由基础设施层、数据层、应用层、管理层、展示层组成,生成了我们最终的运维体系。
抛开我最近创业对这一问题的必要性思考,回归到一个企业内运维团队本身,个人觉得也需要思考这个命题。一个完善的运维平台才能做到对业务的运营有效支撑。个人把产品的水平闭环思考分解成如下几个问题,从这些角度下去,发现很容易找到该问题本质。
在运维适应性系统中,随着运维能力需求不断提升,运维组织面临的机器、人、协同关系等不确性特征越来越明显。为了更好的传递公司数字化转型价值创造,确保公司价值产出过程的有序运作,需要建立以价值驱动的运维流程管理,以持续提升运维组织整体运作效率和价值实现,落实运维的能力建设。良好的流程可以帮助运维建立复杂环境的适应性能力,即围绕“需求、改变、风险、适应”四个要素闭环螺旋上升(闭环模型参见《运维挑战:如何构建复杂环境下的适应性系统》)。
互联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够7×24小时为用户提供高质量的服务。 运维人员对公司互联网业务所依赖的基础设施、基础服务、线上业务进行稳定性加强,进行日常巡检发现服务可能存在的隐患,对整体架构进行优化以屏蔽常见的运行故障,多数据中接入提高业务的容灾能力,通过监控、日志分析等技术手段,及时发现和响应服务故障,减少服务中断的时间,使公司的互联网业务符合预期的可用性要求,持续稳定地为用户提供务。 在安全方面,运维人员需要关注业务运行所涉及的各个层面,确保用
联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够 7×24 小时为用户提供高质量的服务。
应用运维:负责支持线上业务,各自会负责对应的业务线,主要职能是保证线上业务稳定性和同开发共同支撑对应业务,以及线上服务管理和持续优化。
在很早以前,记得给YY的产品经理讲什么是运维,当时给运维提炼出一个成熟度模型,囿于当时的认识,用技术模型来做了总结,简单总结如下:
互联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够 7×24 小时为用户提供高质量的服务。
云计算作为改变世界的力量,已经开始在各种应用实现中被不断印证,而现在还只是云计算生命周期的启航,这场变革的演进一定会超乎大多数人的想象。早些年,当我读到尼古拉斯·卡尔《IT不再重要》(The Big Switch: Rewiring the World, from Edison to Google)这类文章的时候,对于云计算所具备水、电般属性的勾勒,既为之兴奋,又苦恼无法为具化这些属性找到实践支撑。而最近三年来,云计算发展风生水起,以我这三年切身参与阿里云计算产品实现和落地的过程为例,恰好是云计算从“虚”到
在下周广州的DevOps运维交流会上,我准备了150页的PPT,目前正在简化中,自己也特意提前把一些内容分享出来,到时候在交流会上简化描述。
上一篇整理了运维组织的“2.1 组织专业化”,在细化横向的专业化分工之前,本章先看看“运维底线保障能力”(由于本人主要工作经验在应用运维与自动化,相关内容以应用运维为主),主要的部份内容是基于公众号另一篇《回归一线应用运维的底线——先做好最基本的事》之上做扩展。下一篇计划是“2.3 可用性保障能力”
很好的一本书,读完大受启发。没有讲具体的技术,就像武功秘籍,提升的是认识和见识。1-4章讲运维的基础,5-7章讲效率和稳定性方面的实践,8-9章讲云计算方面的思考和实践,10章讲个人成长与趋势热点分析。最后拓展讲了一下个人成长和趋势热点的关系。
随着业务支撑要求的变化,和技术架构的升级,运维管理建设模式跟之前也有了很大区别,场景上更注重主动工作、防范风险,而体系上更注重赋能组织、平台化、一体化。
在之前的文章中,谈到过“运维的本质——可视化”,在可视化的篇幅中,着重介绍自动化的可视化和数据的可视化;在后续的篇章中又介绍了“互联网运维的价值体系”,里面分解了几个维度:质量、成本、效率、安全等。以上都是为了清楚地梳理运维的内容边界,基于这个边界,我们再考虑如何进行平台支撑。可以说前两篇文章都是为今天这篇文章作为铺垫,用理念先行,然后再考虑平台落地,最后再细化其中每个内容。我更习惯用如下的方式来整体表达运维的工作方法和思路:
2016/2017年:刚开始做监控的时候,研究了几乎市面上所有监控产品,和相关的技术文章、视频。这个时候,主要是接触了大数据相关的技术,包括:Kafka、Spark、HiTSDB、ELK等。
在这次的DevOpsdays大会上了,我的演讲主题是《DevOps,驱动应用从运维走向管理》,我为什么分享这样的主题?
运维的发展日新月异,曾几何时,运维仅仅是被认知为跑机房,装系统,设计网络,给开发擦屁股。但是现在运维变得极度重要,运维职责也更加细化,譬如稍大点的公司就将运维划分为基础运维,网络运维,DBA, 应用运维,架构师。其实我个人认为系统架构师应该都安排在运维里,开发团队应该率属于运维团队才好。
今天准备谈下AIOps的内容,在我前面已经写过多篇文章谈DevOps研发运维一体化方面的内容,原来也一直看到AIOps的概念,潜意识里面理解是DevOps里面的一个子内容分解。而实际我们看到AIOps和DevOps没有必然的联系。
大家好,这些年来,我经历了不同形态的业务和不同规模的运维,今天我主要和大家分享我这些年来关于运维自动化的一些认识和实践,包括如下八点:
早在2011年的时候,收到一个任务,就是自研一套运维管理平台,当时基于硬件(CPU、内存、硬盘、网络)的开源运维平台业已成熟,但为什么要自研呢?
前段时间有篇文章朋友圈疯传,【中台搞了2年,项目叫停,CIO被裁!本以为中台是道送分题,没想到是送命题!】。从结果来说,这个项目肯定是失败的,文章中透露出中台是“最短的笑话”和”玄学”之类的表达。很多时候把中台看成一个技术课题,但做着做着发现不对,它又是一个组织课题和业务课题。在前不久的【数字化奇葩说】第一期关于ERP和中台的讨论,我也作为嘉宾参与并发表了个人观点【见文末】。其实想表达的是,能和中台扯上关系的太多了,回到运维领域,是否有一个运维中台存在?它是否是个玄幻话题?抑或是为了概念而概念?如果有,我们该如何抽丝剥茧的理解它呢?
作为我国军用通信、导航及信息化领域最大的整机和系统供应商,行业内唯一的国家规划布局内重点软件企业,海格通信高度重视自主创新,拥有博士、硕士数千名,各类专业技术人员占集团员工总人数的75%,科研成果多次获得国家科技进步奖、军队科技进步奖、国家重点产品等荣誉。
梁定安, 腾讯织云负责人,目前就职于腾讯社交网络运营部,开放运维联盟委员,腾讯云布道师,复旦大学客座讲师。 前言 运维自动化是我们所渴望获得的,但是我们在一味强调自动化能力时,却忽略了影响自动化落
运维的起始点是拿到开发的代码包开始,然后进行资源环境准备、环境搭建、应用发布,以及一些列的运维支撑保障工作;而从运维团队内部来看,大致从技术栈层面分为几类:
配置管理数据库( Configuration Management Database,CMDB)是一个逻辑数据库,包含了配置项全生命周期的信息以及配置项之间的关系(包括物理关系、实时通信关系、非实时通信关系和依赖关系)。
“金融拥抱科技,创新驱动发展”,2018年金融系统信息化创新论坛5月10日-12日在广州顺利举行。
讲师 | 谭用 编辑 | 黄晓轩 讲师简介 谭用 腾讯TEG研发管理部技术运营负责人 负责腾讯企业级研发管理平台建设与技术运营相关工作;十年运维领域工作经验; DevOps Master;近期专注于容
近期在ChinaUnix论坛有一场讨论,标题是——云计算时代:运维人员会踩到哪些坑? 整个讨论过程非常活跃,大概有50个答复,运维派这就给大家整理了一些讨论的优质内容分享给大家。 背景: 在云计算领
其实这个时候谈运维危机有点像在当下讨论股市危机一样,因此写这篇文章时,内心很纠结,特别是这个互联网运维才产生没多少年(10年)的行业,怎么你就来谈危机了?没办法,都因技术发展太快。
不想成为将军的士兵,不是好士兵-拿破仑 如何成为运维经理?成为运维经理需要什么样的能力?我想很多运维工程师都会有这样的思考和问题。 如何成为运维经理。一般来说,运维经理大概有两种出身,一种是从底层最基础的维护做起,通过出色的维护工作,让公司领导对这个人非常认可,同时对Linux运维工作也比较重视,逐步走向Manager的岗位。第二种是业务管理出身或者有IT技术背景,具备了一定经验直接进入IT管理层的人员。 那么做为一个Linux运维经理,你需要哪些技能武器、管理哪些细节,具备什么样的能力? ----
6月20号,在InfoQ高效运维群里面,对运维创业做了一次激烈的讨论,很自然地,过程中不可避免的谈到运维苦逼和运维无法产品化的问题,这是一些运维需要说服自己,证明自己价值的问题。对于本人来说,运维的价值不容置疑,只要我们运维人能自我认识突破,更体系化的站在业务角度看待运维价值问题,那我们就不是一个苦逼的成本部门。此时我自然的想到了【IT运营】,它带来的视界会更加开阔,能够帮助更好的重新认识运维。
腾讯云运维工程师认证的考试经验分享来啦!腾讯云运维工程师认证(TCA)适用于从事运维腾讯云产品和服务的人员,负责在云上部署业务的技术人员,保障云上业务正常稳定运行的维护人员。通过该门认证可以很好的证明自己的云产品使用和运维能力。本篇考试攻略将为您介绍一下,云运维TCA认证需要学习和掌握的内容。
《苏州市“十四五”数字政府建设发展规划》 指出数字政府将以新一代信息技术为支撑,以数字化转型为驱动,以业务流程再造为核心,以数据高质量赋能为主线,以一体化服务感知为导向,重塑政务信息化业务架构、技术架构、组织架构和网络架构,构建政民互动新机制、政府治理新模式、政府作业新形态。
建立持续优化的运维流程管理机制,需要度量运维流程运作的执行力与效率,流程指标是整个运维流程体系的重要组成部分,是对流程管理进行引导、控制、使其不偏离原定目标方向。所以,指标需要根据运维组织的核心价值主张,支持量化、实时、被监控,并透明、公开的传达到组织具体的人,让流程可以持续的得到优化,这是构建持续优化型与学习型组织的关键。在组织、流程、平台、场景四位一体的数字化运维体系下,指标的应用,在组织管理上能够让组织流程可视、可控,且具备在线、可穿透的作用;在流程的协作上能够建立公平、透明的协同文化;同时,指标也是运维平台化管理的场景设计提供基础原料。
领取专属 10元无门槛券
手把手带您无忧上云