专栏首页CSS全接触IT运维管理升级不只是技术层面的事
原创

IT运维管理升级不只是技术层面的事

业内人士称:虽然IT系统运维在技术层面存在跨行业通用的可能,但真正解决方案的落地,势必要紧紧围绕行业特点与发展趋势,深刻剖析,因地制宜。

一套完善的IT运维体系,仅依靠硬件设备的不断升级是远远不够的,事实上,IT系统运维是整个业务系统管理策略与方法的载体,是把管理思路转化为具体执行过程的媒介,因此,在新业务模式下,IT系统运维需要满足多层次的需求。

对于数据量庞大的政务机构及企业的在线业务系统来说,传统的IT基础设施平台在底层硬件的高响应、高可靠、大容量等能力反应方面存在不尽人意的地方,比如问题反馈不及时、问题解决不彻底,这就需要对IT基础设施进行升级,以高响应、高速度、低延时、大容量等能力为业务系统稳定运维保驾护航。

就拿地方政务系统中的社保工作来说,IT系统运维要面临的不只是日益庞大复杂的社保业务数据,旧有业务的合并与重新规划、新型业务的不断加入与动态变化,时刻都在考验IT系统运维的综合能力,尤其是在保持业务连续性、数据安全性方面。东软云科技云解决方案与服务(CSS)在为某市社保中心IT系统提供容灾服务的过程中,以先进的设计理念和容灾模式,赢得了客户的认可。

项目背景:涉及260亿支付金额的社保管理系统

该社保中心原本的业务系统是以社会保险管理信息系统、劳动就业管理信息系统、社会保障卡管理信息系统三大系统为主,在升级前数据量已达7T。

该中心在发展过程中与当地人事人才信息中心合并,增加了几个人事人才信息系统,包括公务员绩效考核系统、考试系统、人事培训系统、市职称报名系统、530人才创业服务中心等,一直未纳入统一系统管理。

此外,该中心公共服务渠道进一步拓宽,网上办事大厅已经改版上线,自助一体机700多台覆盖全市所有街道社区和人社办事机构。社会保障卡持卡人数已经增长到370万人,社会保险和劳动就业系统中管理的人员数量超过300万人,每年基金征缴和各险种支付接近260亿

为了满足该中心各项业务系统对机房环境和软硬件设备的需求,消除当前隐患和存在的问题,保证金保工程系统的高可用性、高可靠性、高可管理性,需要对机房环境和软硬件设备进行升级。

客户需求:双活数据中心确保系统安全

在实施服务之前,该社保中心的数据生产中心位于用户自建机房,容灾机房另设于人防中心,只能实现数据实时备份,保障数据安全,无法做到应用级切换,一旦数据生产中心出现问题(如供电问题或配电柜故障),就没有办法保证系统的正常运行,甚至为该中心带来很严重的社会负面影响。

综合各方考量,防止数据中心单点故障成为本次实施服务的重点,要求设计实施双活数据中心建设,来提高该中心信息系统运行的安全性。

另外,由于核心业务系统数据量的增加,现有的备份系统难以在8小时内正常的备份时间窗口完成备份,已经对业务系统的正常运行造成了部分影响,这也是此次实施服务过程中需要解决的另一个关键问题。

解决方案:物尽其用,多重保护

>> 设计理念先进 双活加容灾模式

  • 实现了双活中心(电信一期机房和二期机房)加容灾中心(移动机房)的三中心模式;
  • 利用底层存储技术,实现双中心存储双读双写,既满足应用级容灾的需要,也能作为第二生产中心,不同的业务可以运行在不同节点上同时对内、对外提供应用服务并且互为冗余备份;
  • 引入了核心网络设备CSS虚拟化、服务器虚拟化等多种技术手段;保证生产中心网络与容灾网络互连互通。
  • 核心生产数据库采用了Oralce11g 3节点RAC+2节点RACDG模式;
  • 核心数据库采用了远程extend rac方式;
  • 并且在灾备中心利用利旧机器搭建了应用服务虚拟机资源池,用于整体应用级别容灾。

>>  设备物尽其用,数据多重保护

充分利用了原有系统的两台USPVM核心存储、两台IBM小机及两个IBM刀箱,与新采购设备一起形成了一套完整、多重的数据冗余保护、备份、恢复验证和测试机制。保护了前期投资,做到了物尽其用。

同时增加了数据库备份一体机,采用权限的lun free方式进行加速备份,优化设计了合理的备份策略,同时进行了备份恢复演练。从备份上保障数据的安全。

>>  制度、监控、方案、灾备演练“四合一”

  • 根据承建的IT整体架构,编写了完整的《IT设备管理制定》《应急演练手册》《容灾演练切换手册和测试报告》;
  • 结合成熟的软硬件和应用的全套监控审计工具进行实时监控;
  • 每年定期进行灾备演练测试灾备中心服务能力,出具演练报告等。

客户收益:抗风险能力、业务连续性显著提升

通过本次金保工程二期系统平台建设最终实现双活数据中心+异地灾备的“两地三中心”模式,从而确保满足金保工程各项业务系统对机房环境和软硬件设备的需求,消除现有隐患和存在的问题,保证金保工程系统的高可用性、高可靠性、高可管理性。

贯穿项目整体实施过程的周密计划、密切沟通、紧密合作、精心施工,平台建设项目在各个参与方的通力合作下按照预期在计划时间点一次上线成功,通过为期两个月的试运行观察综合各方面反馈确认系统的整体功能和性能指标达到了设计目标。

在实施服务过程中,该社保中心的数据中心抗风险能力、IT系统业务连续性都得到显著提升,满足行业监管及政策法规要求,提升了IT运维部门容灾综合处理能力。CSS IT系统运维团队赢得了客户的极大肯定,成为保证该中心各项业务安全、稳定运行的重要合作伙伴。


作为企业数字化转型路上的技术伙伴,东软云科技始终致力于为企业提供数字化转型所必需的前沿技术创新产品、解决方案与一站式服务,以及助力企业以更低成本、更快节奏进入数字化时代。IT系统运维团队将根据每家企业不同的情况进行专业的分析,并提出有效的解决方案,帮助企业专注于提升业务效率和市场竞争力。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 一款基于微服务多层体系技术架构的B2C移动应用系统

    11月21日,东软云科技在“Pivotal 技术峰会 2019”上展示了数据应用创新及助力企业数字化转型方面的成功案例。

    CSS-云解决方案与服务
  • 医疗信息化系统升级,硬件平台如何做好支撑?

    从2003年的SARS到如今全球正在经历的COVID-19,每一次重大公共卫生事件的发生,都会对医疗信息化的发展带来一个新的刺激。尤其像我国这样的人口大国,医院...

    CSS-云解决方案与服务
  • 智能建筑统一信息平台:顶层设计是关键

    现阶段的智能建筑往往是集办公、会议、商务、数据中心、内部餐饮和停车场管理等多功能为一体的高层建筑,如果以基于移动互联网的智慧应用实现建筑与人的相互感知为建设目标...

    CSS-云解决方案与服务
  • 数据竞赛之常见数据抽样方式

    该抽样方法是按等概率原则直接从总中抽取n个样本,这种随机样本方法简单,易于操作;但是它并不能保证样本能完美的代表总体,这种抽样的基本前提是所有样本个体都是等概率...

    Coggle数据科学
  • 在VR中操作的Windows 系统是一种怎样的体验?

    VRPinea
  • python实战

    这个实战内容包含,selenium、pyquery、re、pymongo pymongo安装去这里:https://blog.51cto.com/1315540...

    py3study
  • ZGC介绍

    入门小站
  • 简单实现ToolStripMenuItem(菜单栏)的单选效果

    这几天在写又拍云的客户端,老实说确实学到了不少东西!接下来的几天我会把一些技巧或者原来没有接触过的一些东西发上来,算是复习吧!

    跟着阿笨一起玩NET
  • 深入理解JVM(③)ZGC收集器

    ZGC是一款在JDK11中新加入的具有实验性质的低延迟垃圾收集器,目前仅支持Linux/x86-64。ZGC收集器是一款基于Region内存布局的,(暂时)不设...

    纪莫
  • 源码分析RateLimiter SmoothWarmingUp 实现原理(文末附流程图)

    上一篇详细介绍了 SmoothBursty 的实现原理,本文将介绍带有预热机制的限速器实现原理。

    丁威

扫码关注云+社区

领取腾讯云代金券