腾讯织云:DevOps 流水线应用平台践行之路

作者:梁定安,腾讯织云负责人,目前就职于腾讯社交网络运营部,任运维技术总监,开放运维联盟委员,腾讯云布道师,腾讯课堂运维讲师,EXIN DevOps Master讲师,凤凰项目沙盘教练,复旦大学客座讲师。

导语:8月23日,腾讯 云+未来峰会在北京盛大开幕。在开发者专场,腾讯织云负责人梁定安为大家解读了腾讯DevOps流水线的系统组成,以及如何在平台的实践中实现持续部署能力,帮助企业创造更大的价值。

前言

国家的“互联网+”战略开启了一个企业业务与互联网相结合的新业务形态,有越来越多的企业将自己的业务以互联网为媒介对外输出。任何一款互联网产品都会经历从产品的规划与设计、开发的功能实现、测试的度量验收、运维的发布交付,也是常常被成为企业的IT价值链的全流程,将产品输出个最终的用户,以产生商业价值。

腾讯的DevOps实践

在DevOps的理念中,企业的IT价值链流转的速度越快,意味着企业的互联网产品的交付能力越强,这也意味着企业在同行业的竞争中,凭借IT能力的优势,能够收获更大的竞争优势。

腾讯公司诞生于互联网行业,以海量用户规模和设备规模著称社交网络业务,其DevOps的技术实践,主要由四大平台系统组成。

四个系统共同组成DevOps流水线,腾讯的海量业务使用这套流水线系统可以轻松完成从需求设计、代码管理、开发测试、发布&运维的各阶段工作。

TAPD支持敏捷项目管理,实现产品需求与开发分支关联;TGit支持代码管理,通过webhook钩子触发持续集成系统的能力;CIS负责自动化完成编译、测试等任务,以输出制品库:软件包或docker镜像;织云对接CIS获取制品,以自动化的方式完成业务的发布/变更任务。

应用架构的可运维性

对于互联网产品而言,发布仅仅只是开始,在持续为用户输出价值的运营过程,由运维团队和系统来保障服务的稳定可靠。以腾讯的应用架构实践案例,我们来看下腾讯业务对可运维性的定义 DevOps持续交付的八大原则对可运维性给出了这样的定义,在企业中研发和运维体系必然需要相互配合,开发团队负责功能性需求实现的同时,在架构和编码上注重非功能性需求的实现,测试团队与运维团队将围绕着各自职能的需求,规划与建设DevOps流水线中对应的工具系统,加速企业IT价值链的流转,以为企业创造更大的商业价值。

有了持续交付方法论的支撑,我们认为要实现可运维性的过程可分为4个阶段:统一架构、运维规范、标准操作、运维自动化。

将互联网的业务架构抽象成为三层:接入层、逻辑层、数据层。

并在业务架构的技术选型与规划时,遵循四个原则:框架化、组件化、无状态、分布式。

框架化的引入,可以有效的降低开发的工作量,通过有限的编码即可实现快速业务功能需求。如下图所述,对于常见的socket通讯型的C/S架构,由框架实现了网络的通讯,业务逻辑由动态库的方式加载到框架中,快速拼装出满足业务功能需求的软件程序。得益于框架的支持,可运维性诉求的非功能性的规范亦可被纳入框架中实现,如数据上报、统一日志、管理工具等。

组件可以将共性的服务统一化,如腾讯内部大量应用的软件路由服务,帮助业务轻松实现负载均衡、名字服务、容错、过载保护、流量调度的功能特性。除了为业务解决了路由的难题,也使日常的运维管理变得更加简单高效。

通过对可运维性的思考,在统一规划与标准化的持续推进实践中,保障了腾讯的业务架构有序的发展,架构的演变从千人千面进化成千人一面。结合框架与组件的非功能规范的落地实现,将运维保障业务质量与效率的规划落实。

腾讯织云的持续部署实践

要满足企业的长期发展,仅靠堆砌运维工具是不够的,必须体系化的、全局的考虑标准化、配置化、自动化、智能化的一体化运维管理系统。下图是腾讯运维平台——织云的功能规划,我们以此管理着腾讯社交网络海量的服务。

在运维的过程中,我们要面对很多复杂的运维对象,结合可运维性与非功能规范的要求可以很好的防止业务架构失控,但倘若要更好的管理这些运维对象,我们必须要做好配置管理。 织云平台实践中,我们将标准化的运维对象配置化,以下图为例,每个微服务集群在织云CMDB中被定义成不同的模块名。模块可被划分为两大类配置属性:基础配置与应用配置。

基础配置中的资产配置,可被用做资产核算、预算规划等;硬件配置可被用于虚拟化和机型规划等方面;分布信息会记录设备的上联交换机与IDC等信息,在优化机房穿越、网络设备故障的智能分析场景,可以提供很好的数据支持。

应用配置中的资源配置,可对接镜像仓库或制品库,实现与发布/变更相关的运维对象关联,为自动化提供支撑数据;流程配置将工具或接口通过自定义编排实现操作流或工具链,让运维的工具收敛复用;变更记录提供了运维操作审计与联动监控数据的配置信息。

我们将运维日常关联生产环境的操作提炼如图:对资源的传输与执行。

从统一规划、标准化、配置化、自动化到联动监控,用持续部署的流水线工具串行起来,我们将得到一个体系化的运维能力模型,基于此模型,运维团队能够全局规划持续部署的能力与工具系统。

通过工具编排功能,自定义运维操作流程、工单审批流程、服务请求流程。并与CMDB的业务、负责人、状态等数据接口联动,解决运维操作与配置数据状态的协同的难题,实现从ITIL离线流程到线上自动化流程的技术升级。

以织云的自动化扩容流程为例,将原子运维工具或系统接口以运维的最优操作流程组织起来,自动化的完成扩容操作,并且保证每个步骤都会被严格执行到位,不会受个人的经验深浅或文档的新旧影响。从而解决运维团队“文档即过期,离职即消失”的难题。

基于统一规划的运维体系,不仅能提升运维效率,同时对服务质量的保障也能有很多好处。如下案例是进程自愈的场景,结合CMDB的业务属性,通过自动化的流程完成配置注册,从而实现进程监控的自愈。

结束语

在腾讯多年的海量运营经验中,DevOps是贯穿整个应用软件生命周期的,发布完成并非终点,我们要全局思考、统一规划,为业务的健康发展打造一个标准有序的业务架构,和为业务提供一套完整体系化的运维解决方案。

欢迎关注腾讯织云公众号,获取织云最新技术资讯。

附件:

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Spark学习技巧

程序员难以攻克的十大难题

1486
来自专栏JAVA高级架构

开发十年,就只剩下这套Java开发体系了

以前我一直被公司和技术牵着走,并不是自己在选择技术,而是不自觉地被推到了这个位置上。想想有多少人对于自己将来要从事的职业和技术类型进行过深入思考和比较呢?当我跳...

1242
来自专栏DevOps时代的专栏

腾讯织云:DevOps流水线应用平台践行之路

持续交付是DevOps的核心工程实践,持续交付流水线驱动着DevOps的落地,昨天在云+峰会的开发者专场,腾讯跟大家揭开了DevOps流水线平台的神秘面纱。同时...

3659
来自专栏灯塔大数据

干货|大数据时代,我们平时都用哪些大数据平台?

什么是开放的API? 大数据时代,数据源就是我们让数据产生价值的最重要的对象,对于一个企业来说,其内部在自身业务经营环节当中包括销售、客服、仓储、财务等等一系...

3097
来自专栏互联网数据官iCDO

【精华知识】初学者的高级谷歌分析指南-Episode 1

主编前言: 这篇文章我们请朱玉雪女士帮我们翻译自Avinash Kaushik先生的文章。了解Avinash Kaushik先生的朋友不对他的行文风格不会陌生—...

4345
来自专栏Jerry的SAP技术分享

SAP成都研究院郑晓霞:Shift Left Testing和软件质量保证的一些思考

今天的文章来自Jerry的同事,曾经的搭档郑晓霞(Zheng Kate)。郑晓霞是在Jerry心中是一位很有实力的程序媛,2011年从西安某软件公司跳槽到SAP...

1652
来自专栏何俊林

开发十年,只剩下这套Java开发体系了

蓦然回首自己做开发已经十年了,这十年中我获得了很多,技术能力、培训、出国、大公司的经历,还有很多很好的朋友。

1263
来自专栏腾讯移动品质中心TMQ的专栏

TMQ微信沙龙第二期回顾

一堂课学会探索式测试 活动时间:2016年6年16日 微信线上交流群活动介绍TMQ微信沙龙第二期分享圆满结束啦~本次分享的主题是探索式测试相关的知识。共有来自四...

19110
来自专栏IT米粉

加强管理能提高程序代码质量吗?

代码质量是咱们程序开发中永远的一个痛,提升代码质量有很多种方式,强化管理是一种很常见的方式,这里咱们就聊聊,所谓的管理,真的是提升代码质量最有效的方式吗? 外包...

2975
来自专栏腾讯高校合作

腾讯分享日干货之腾讯新闻的海量服务

在2014年4月11日的腾讯分享日活动上,腾讯OMG移动媒体产品部助总郑坚分享了有关腾讯新闻海量服务的一些技术原则。本文根据这次分享内容整理而成。 腾讯很多海量...

3216

扫码关注云+社区

领取腾讯云代金券