注:因昨天发布的版本透露了老于同学的隐私,所以删了重推一遍
我们生产队里的私有云融合资源池2016年12月开始建设,2017年6月投入使用,一期和二期工程共纳管X86 服务器近900台、网络与安全设备200余台。因为是新建资源池,没有历史包袱,采用了全新的技术架构和平台,使用了数据库多租户+SDN+OPENSTACK的混合集成方式。
资源池从运营开始算,到六月也刚好满一岁了。一路走来磕磕绊绊,队里也克服了很多困难,今天特别邀请到了我们私有云资源池的池长——老于同学,给大家渲一渲我们的私有云资源池运营经验。
一、资源申请“一单清”,提升资源交付效率
(一)背景
私有云融合资源池自2017年6月上线投产以来,依靠OPENSTACK便捷的资源调度及SDN灵活的网络部署,实现了计算、存储及网络资源的快速部署及调度,较传统系统建设,资源交付时间大大减少。
但是,计算资源的储备和提供,并非意味着最终用户能够快速申请和使用。按照公司的传统申请流程,一个计算资源租户从申请到使用,需要如下流程:
▲资源申请流程及工具
①资源申请。通过云管理平台提交资源申请单。
②资源入网申请。安全扫描通过后,通过BOMC或EOMS系统提交入网申请,入网申请需要进行基线及漏洞扫描,符合主机安全规范。
③资源从账号申请。通过BOMC或EOMS提交从账号申请,绑定主机资源;
④网络打通申请。根据业务访问规则,通过BOMC或EOMS提交网络打通申请。
(二)改造措施
为缩短业务部门资源申请流程,提高资源交付效率,业务支撑系统部提出“一单清”的资源快速交付响应支撑模式。
在模板制作阶段,联合安全管理部门进行模板安全认证,认证原则是基线小于95%、或者有一个以上中高危漏洞,模板均不可生产使用。
另外,通过云管理平台“资源申请”工单,通过接口打通资源分配、入网、4A主从账号绑定各个环节,实现资源一单交付到用户4A终端,免去中间环节,提升业务运营效率。
▲资源申请一单清
(三)实施效果
资源一单交付流程上线后,工单申请的审批等待时长大幅度缩短:资源交付时间减少了70%以上,资源交付效率提高了200%。极大地满足了公司业务在私有云场景下的快速部署、快速上线需求。
二、ORACLE 12C多租户最佳实践改造
(一)背景
私有云融合资源池多租户数据库是私有云融合资源池的一部分,承载着PAAS层数据库整合功能。目前,多租户数据库PAAS平台采用数据库+InfiniBand网络+分布式存储方式组网运行。自2017年7月投入使用以来,截止2018年4月底,承载七个部门的数据库共43套,运行实例86个。
随着投入使用的业务系统越来越多,业务支撑系统部发现在InfiniBand宕机等极端条件偶发多路径软件不稳定问题,造成个别存储无法访问,给系统安全运行造成一定隐患,而使用多路径软件是数据库存储管理最常见的方式,在数据库领域广泛使用。
(二)改造措施
业务支撑系统根据商用一体机采用的UDEV最佳实践方案,结合私有云实际,落地了私有云融合资源池PAAS平台改造方案,经测试系统测试,该方案通过关闭多租户数据库主机多路径软件,改由Linux系统UDEV设备管理器实现分布式存储访问管理,从而减少中间环节,保证访问路径的稳定性。
(三)实施效果
2017年6月到2017年11月之间,PAAS多租户数据上线以来,分别于10月7日、10月20日两次出现个别存储无法访问的情况。2017年11月,业务支撑系统部进行了UDEV改造,改造完成后,截止2018年4月,系统运行稳定,未出现存储访问不稳定的情况。
三、分布式数据中心运维平台DDOMS
(一)背景
自私有云建设以来,X86服务器数量迅速上升,包括业支自有BOSS/CRM/经分等系统,目前用于虚拟化的物理服务器数量400余台,传统物理服务器数量800余台,承载的Linux操作系统接近2000套,对服务器设备的运维管理,如修改密码、安全加固、升级系统组件,统计系统配置及其他操作调整时,需要逐台登陆到各服务器进行操作,维护效率极低,传统运维方式已无法满足海量Linux服务器的日常运维需求,需要有集中化的运维管理平台实现设备的自动化运维管理。
(二)改造措施
业务支撑系统部作为公司私有云维护部门,主动探索新的运维模式,对比主流开源自动化运维工具,选用Ansible作为运维平台核心组件,组建自有开发团队完成运维平台的开发工作,实现Linux服务器配置批量采集,系统软件批量管理,操作系统配置批量下发,密码批量修改、批量基线加固等功能,固化多种运维场景,极大节约运维人力成本。
▲DDOMS系统部署架构
▲DDOMS平台操作界面
(三)实施效果
自运维平台上线后,投入在Linux系统运维中的人力明显降低,且运维质量极大提升。主机运维人员兼职2人,共维护近2000余台Linux服务器,为公司节约运维人力成本至少5人。
四、网络及负载均衡策略自动开通
(一)背景
三域融合后,根据资源池安全域划分规则,资源池不仅实现了不同部门、不同业务之间的系统隔离,同时也实现了同一业务不同安全域之间的隔离,例如,内部接口域与核心域之间的网络隔离。
随着入池系统的增多,不同接入域、不同系统之间、同一系统之间的访问需求量大增,需要网络管理员手动开通网络防火墙策略,工作量极大。同时,负载均衡策略的开通也需要自动执行,以减少网络管理员的工作量。
(二)改造措施
为解决该问题,业务支撑系统部实现了网络策略自动开通功能,只要用户按照要求在云管理平台提交开通工单,审批通过后即可自动进行网络策略开通。
▲网络与负载均衡策略自动开通
(三)实施效果
网络工单自动化开通模式执行后,负载均衡策略及防火墙策略自动下发后,缩短网络开通时间、减少策略开通误差率:网络开通效率提升70%,一次下发成功率提升到95%。
改善了依靠网络管理员配置的方式,网络策略发单重查率大大降低,解放网络维护管理员,使其更关注于网络架构的设计及演进方面的研究。
五、整合备份资源,实现多租户统一备份管理
(一)背景
在公司级的资源池内,要备份的东西很多,虚拟机、文件系统、数据库(oracle的物理、逻辑备份)、hdfs等,都有备份需求,这些文件需要各自的专业化工具进行备份,备份系统众多乱,不利于统一管理。
(二)改造措施
宁夏移动私有云融合资源池通过对备份资源的整合,将备份介质规范为虚拟机带库及分布式文件系统两种,通过统一备份管理,实现一套系统对虚拟机、文件系统、数据库(oracle、db2、mysql)、hdfs的备份及管理,通过多租户管理,各业务系统负责人可以自定义本系统的备份策略、查看备份结果,实现用户自主备份服务及管理。
▲统一备份策略
(三)实施效果
多租户统一备份系统主要解决三方面的问题:一、整合备份资源;二、释放资源池运维人员运维压力;三、业务人员可以清晰看到系统的备份结果,实现前后台运维共赢的局面。
六、安全视图建设,上帝视角看安全
(一)背景
业务人员通过业务资源视图查看资源的时候,看到更多的是使用率、故障、告警的情况,而安全问题总是游离在资源管理的概念之外,近些年随着安全问题日益重视及凸显,打造一体式的安全视图成为刚需。
(二)改造措施
云管理平台主动与安全监测&评估平台进行对接,根据安全监测与评估平台对资源监测与评估结果,以月为单位、以业务系统为维度、以ip为单位,逐台获取资源池各类资源的基线、漏洞情况,展现在业务资源视图中,使业务负责人可以清楚了解到自身系统的安全情况,及时对问题进行整改。同时,作为一个重要的评估指标,安全信息对资源后评估也有很大的借鉴意义。
(三)实施效果
以前,安全管理部门甩下来一张表格,部门安全管理员需要苦苦整理5天,才能分清哪个IP由谁整改。
现在,通过安全视图,不用安全管理员,业务人员就能一清二楚的掌握业务系统的安全情况。
今后,通过功能优化和接口完善,业务人员甚至可以自定义开展业务系统扫描,实现对整改结果的自助分析和修补确认。
看官们,是不是觉得我们的资源池运营体系还过得去,有志于学习云计算、虚拟化、大数据方面的同学,欢迎赶着你的马车、带着你的嫁妆,来新昌东路217号五号楼404拜师学艺。
黑眼睛运维小队里,老于、老冯、小胡、阿杜、甲星等各宗师都身怀绝技,就差你这个关门弟子了!
非典型IT,更新全凭心情
长按下图,可便捷关注
领取专属 10元无门槛券
私享最新 技术干货