私有云融合资源池运营经验周年小记

注:因昨天发布的版本透露了老于同学的隐私,所以删了重推一遍

我们生产队里的私有云融合资源池2016年12月开始建设,2017年6月投入使用,一期和二期工程共纳管X86 服务器近900台、网络与安全设备200余台。因为是新建资源池,没有历史包袱,采用了全新的技术架构和平台,使用了数据库多租户+SDN+OPENSTACK的混合集成方式。

资源池从运营开始算,到六月也刚好满一岁了。一路走来磕磕绊绊,队里也克服了很多困难,今天特别邀请到了我们私有云资源池的池长——老于同学,给大家渲一渲我们的私有云资源池运营经验。

一、资源申请“一单清”,提升资源交付效率

(一)背景

私有云融合资源池自2017年6月上线投产以来,依靠OPENSTACK便捷的资源调度及SDN灵活的网络部署,实现了计算、存储及网络资源的快速部署及调度,较传统系统建设,资源交付时间大大减少。

但是,计算资源的储备和提供,并非意味着最终用户能够快速申请和使用。按照公司的传统申请流程,一个计算资源租户从申请到使用,需要如下流程:

▲资源申请流程及工具

①资源申请。通过云管理平台提交资源申请单。

②资源入网申请。安全扫描通过后,通过BOMC或EOMS系统提交入网申请,入网申请需要进行基线及漏洞扫描,符合主机安全规范。

③资源从账号申请。通过BOMC或EOMS提交从账号申请,绑定主机资源;

④网络打通申请。根据业务访问规则,通过BOMC或EOMS提交网络打通申请。

(二)改造措施

为缩短业务部门资源申请流程,提高资源交付效率,业务支撑系统部提出“一单清”的资源快速交付响应支撑模式。

在模板制作阶段,联合安全管理部门进行模板安全认证,认证原则是基线小于95%、或者有一个以上中高危漏洞,模板均不可生产使用。

另外,通过云管理平台“资源申请”工单,通过接口打通资源分配、入网、4A主从账号绑定各个环节,实现资源一单交付到用户4A终端,免去中间环节,提升业务运营效率。

▲资源申请一单清

(三)实施效果

资源一单交付流程上线后,工单申请的审批等待时长大幅度缩短:资源交付时间减少了70%以上,资源交付效率提高了200%。极大地满足了公司业务在私有云场景下的快速部署、快速上线需求。

二、ORACLE 12C多租户最佳实践改造

(一)背景

私有云融合资源池多租户数据库是私有云融合资源池的一部分,承载着PAAS层数据库整合功能。目前,多租户数据库PAAS平台采用数据库+InfiniBand网络+分布式存储方式组网运行。自2017年7月投入使用以来,截止2018年4月底,承载七个部门的数据库共43套,运行实例86个。

随着投入使用的业务系统越来越多,业务支撑系统部发现在InfiniBand宕机等极端条件偶发多路径软件不稳定问题,造成个别存储无法访问,给系统安全运行造成一定隐患,而使用多路径软件是数据库存储管理最常见的方式,在数据库领域广泛使用。

(二)改造措施

业务支撑系统根据商用一体机采用的UDEV最佳实践方案,结合私有云实际,落地了私有云融合资源池PAAS平台改造方案,经测试系统测试,该方案通过关闭多租户数据库主机多路径软件,改由Linux系统UDEV设备管理器实现分布式存储访问管理,从而减少中间环节,保证访问路径的稳定性。

(三)实施效果

2017年6月到2017年11月之间,PAAS多租户数据上线以来,分别于10月7日、10月20日两次出现个别存储无法访问的情况。2017年11月,业务支撑系统部进行了UDEV改造,改造完成后,截止2018年4月,系统运行稳定,未出现存储访问不稳定的情况。

三、分布式数据中心运维平台DDOMS

(一)背景

自私有云建设以来,X86服务器数量迅速上升,包括业支自有BOSS/CRM/经分等系统,目前用于虚拟化的物理服务器数量400余台,传统物理服务器数量800余台,承载的Linux操作系统接近2000套,对服务器设备的运维管理,如修改密码、安全加固、升级系统组件,统计系统配置及其他操作调整时,需要逐台登陆到各服务器进行操作,维护效率极低,传统运维方式已无法满足海量Linux服务器的日常运维需求,需要有集中化的运维管理平台实现设备的自动化运维管理。

(二)改造措施

业务支撑系统部作为公司私有云维护部门,主动探索新的运维模式,对比主流开源自动化运维工具,选用Ansible作为运维平台核心组件,组建自有开发团队完成运维平台的开发工作,实现Linux服务器配置批量采集,系统软件批量管理,操作系统配置批量下发,密码批量修改、批量基线加固等功能,固化多种运维场景,极大节约运维人力成本。

▲DDOMS系统部署架构

▲DDOMS平台操作界面

(三)实施效果

自运维平台上线后,投入在Linux系统运维中的人力明显降低,且运维质量极大提升。主机运维人员兼职2人,共维护近2000余台Linux服务器,为公司节约运维人力成本至少5人。

四、网络及负载均衡策略自动开通

(一)背景

三域融合后,根据资源池安全域划分规则,资源池不仅实现了不同部门、不同业务之间的系统隔离,同时也实现了同一业务不同安全域之间的隔离,例如,内部接口域与核心域之间的网络隔离。

随着入池系统的增多,不同接入域、不同系统之间、同一系统之间的访问需求量大增,需要网络管理员手动开通网络防火墙策略,工作量极大。同时,负载均衡策略的开通也需要自动执行,以减少网络管理员的工作量。

(二)改造措施

为解决该问题,业务支撑系统部实现了网络策略自动开通功能,只要用户按照要求在云管理平台提交开通工单,审批通过后即可自动进行网络策略开通。

▲网络与负载均衡策略自动开通

(三)实施效果

网络工单自动化开通模式执行后,负载均衡策略及防火墙策略自动下发后,缩短网络开通时间、减少策略开通误差率:网络开通效率提升70%,一次下发成功率提升到95%

改善了依靠网络管理员配置的方式,网络策略发单重查率大大降低,解放网络维护管理员,使其更关注于网络架构的设计及演进方面的研究。

五、整合备份资源,实现多租户统一备份管理

(一)背景

在公司级的资源池内,要备份的东西很多,虚拟机、文件系统、数据库(oracle的物理、逻辑备份)、hdfs等,都有备份需求,这些文件需要各自的专业化工具进行备份,备份系统众多乱,不利于统一管理。

(二)改造措施

宁夏移动私有云融合资源池通过对备份资源的整合,将备份介质规范为虚拟机带库及分布式文件系统两种,通过统一备份管理,实现一套系统对虚拟机、文件系统、数据库(oracle、db2、mysql)、hdfs的备份及管理,通过多租户管理,各业务系统负责人可以自定义本系统的备份策略、查看备份结果,实现用户自主备份服务及管理。

▲统一备份策略

(三)实施效果

多租户统一备份系统主要解决三方面的问题:一、整合备份资源;二、释放资源池运维人员运维压力;三、业务人员可以清晰看到系统的备份结果,实现前后台运维共赢的局面。

六、安全视图建设,上帝视角看安全

(一)背景

业务人员通过业务资源视图查看资源的时候,看到更多的是使用率、故障、告警的情况,而安全问题总是游离在资源管理的概念之外,近些年随着安全问题日益重视及凸显,打造一体式的安全视图成为刚需。

(二)改造措施

云管理平台主动与安全监测&评估平台进行对接,根据安全监测与评估平台对资源监测与评估结果,以月为单位、以业务系统为维度、以ip为单位,逐台获取资源池各类资源的基线、漏洞情况,展现在业务资源视图中,使业务负责人可以清楚了解到自身系统的安全情况,及时对问题进行整改。同时,作为一个重要的评估指标,安全信息对资源后评估也有很大的借鉴意义。

(三)实施效果

以前,安全管理部门甩下来一张表格,部门安全管理员需要苦苦整理5天,才能分清哪个IP由谁整改。

现在,通过安全视图,不用安全管理员,业务人员就能一清二楚的掌握业务系统的安全情况。

今后,通过功能优化和接口完善,业务人员甚至可以自定义开展业务系统扫描,实现对整改结果的自助分析和修补确认。

看官们,是不是觉得我们的资源池运营体系还过得去,有志于学习云计算、虚拟化、大数据方面的同学,欢迎赶着你的马车、带着你的嫁妆,来新昌东路217号五号楼404拜师学艺。

黑眼睛运维小队里,老于、老冯、小胡、阿杜、甲星等各宗师都身怀绝技,就差你这个关门弟子了!

非典型IT,更新全凭心情

长按下图,可便捷关注

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180615G090DX00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券