专栏首页CSS全接触IT运维管理升级不只是技术层面的事
原创

IT运维管理升级不只是技术层面的事

业内人士称:虽然IT系统运维在技术层面存在跨行业通用的可能,但真正解决方案的落地,势必要紧紧围绕行业特点与发展趋势,深刻剖析,因地制宜。

一套完善的IT运维体系,仅依靠硬件设备的不断升级是远远不够的,事实上,IT系统运维是整个业务系统管理策略与方法的载体,是把管理思路转化为具体执行过程的媒介,因此,在新业务模式下,IT系统运维需要满足多层次的需求。

对于数据量庞大的政务机构及企业的在线业务系统来说,传统的IT基础设施平台在底层硬件的高响应、高可靠、大容量等能力反应方面存在不尽人意的地方,比如问题反馈不及时、问题解决不彻底,这就需要对IT基础设施进行升级,以高响应、高速度、低延时、大容量等能力为业务系统稳定运维保驾护航。

就拿地方政务系统中的社保工作来说,IT系统运维要面临的不只是日益庞大复杂的社保业务数据,旧有业务的合并与重新规划、新型业务的不断加入与动态变化,时刻都在考验IT系统运维的综合能力,尤其是在保持业务连续性、数据安全性方面。东软云科技云解决方案与服务(CSS)在为某市社保中心IT系统提供容灾服务的过程中,以先进的设计理念和容灾模式,赢得了客户的认可。

项目背景:涉及260亿支付金额的社保管理系统

该社保中心原本的业务系统是以社会保险管理信息系统、劳动就业管理信息系统、社会保障卡管理信息系统三大系统为主,在升级前数据量已达7T。

该中心在发展过程中与当地人事人才信息中心合并,增加了几个人事人才信息系统,包括公务员绩效考核系统、考试系统、人事培训系统、市职称报名系统、530人才创业服务中心等,一直未纳入统一系统管理。

此外,该中心公共服务渠道进一步拓宽,网上办事大厅已经改版上线,自助一体机700多台覆盖全市所有街道社区和人社办事机构。社会保障卡持卡人数已经增长到370万人,社会保险和劳动就业系统中管理的人员数量超过300万人,每年基金征缴和各险种支付接近260亿

为了满足该中心各项业务系统对机房环境和软硬件设备的需求,消除当前隐患和存在的问题,保证金保工程系统的高可用性、高可靠性、高可管理性,需要对机房环境和软硬件设备进行升级。

客户需求:双活数据中心确保系统安全

在实施服务之前,该社保中心的数据生产中心位于用户自建机房,容灾机房另设于人防中心,只能实现数据实时备份,保障数据安全,无法做到应用级切换,一旦数据生产中心出现问题(如供电问题或配电柜故障),就没有办法保证系统的正常运行,甚至为该中心带来很严重的社会负面影响。

综合各方考量,防止数据中心单点故障成为本次实施服务的重点,要求设计实施双活数据中心建设,来提高该中心信息系统运行的安全性。

另外,由于核心业务系统数据量的增加,现有的备份系统难以在8小时内正常的备份时间窗口完成备份,已经对业务系统的正常运行造成了部分影响,这也是此次实施服务过程中需要解决的另一个关键问题。

解决方案:物尽其用,多重保护

>> 设计理念先进 双活加容灾模式

  • 实现了双活中心(电信一期机房和二期机房)加容灾中心(移动机房)的三中心模式;
  • 利用底层存储技术,实现双中心存储双读双写,既满足应用级容灾的需要,也能作为第二生产中心,不同的业务可以运行在不同节点上同时对内、对外提供应用服务并且互为冗余备份;
  • 引入了核心网络设备CSS虚拟化、服务器虚拟化等多种技术手段;保证生产中心网络与容灾网络互连互通。
  • 核心生产数据库采用了Oralce11g 3节点RAC+2节点RACDG模式;
  • 核心数据库采用了远程extend rac方式;
  • 并且在灾备中心利用利旧机器搭建了应用服务虚拟机资源池,用于整体应用级别容灾。

>>  设备物尽其用,数据多重保护

充分利用了原有系统的两台USPVM核心存储、两台IBM小机及两个IBM刀箱,与新采购设备一起形成了一套完整、多重的数据冗余保护、备份、恢复验证和测试机制。保护了前期投资,做到了物尽其用。

同时增加了数据库备份一体机,采用权限的lun free方式进行加速备份,优化设计了合理的备份策略,同时进行了备份恢复演练。从备份上保障数据的安全。

>>  制度、监控、方案、灾备演练“四合一”

  • 根据承建的IT整体架构,编写了完整的《IT设备管理制定》《应急演练手册》《容灾演练切换手册和测试报告》;
  • 结合成熟的软硬件和应用的全套监控审计工具进行实时监控;
  • 每年定期进行灾备演练测试灾备中心服务能力,出具演练报告等。

客户收益:抗风险能力、业务连续性显著提升

通过本次金保工程二期系统平台建设最终实现双活数据中心+异地灾备的“两地三中心”模式,从而确保满足金保工程各项业务系统对机房环境和软硬件设备的需求,消除现有隐患和存在的问题,保证金保工程系统的高可用性、高可靠性、高可管理性。

贯穿项目整体实施过程的周密计划、密切沟通、紧密合作、精心施工,平台建设项目在各个参与方的通力合作下按照预期在计划时间点一次上线成功,通过为期两个月的试运行观察综合各方面反馈确认系统的整体功能和性能指标达到了设计目标。

在实施服务过程中,该社保中心的数据中心抗风险能力、IT系统业务连续性都得到显著提升,满足行业监管及政策法规要求,提升了IT运维部门容灾综合处理能力。CSS IT系统运维团队赢得了客户的极大肯定,成为保证该中心各项业务安全、稳定运行的重要合作伙伴。


作为企业数字化转型路上的技术伙伴,东软云科技始终致力于为企业提供数字化转型所必需的前沿技术创新产品、解决方案与一站式服务,以及助力企业以更低成本、更快节奏进入数字化时代。IT系统运维团队将根据每家企业不同的情况进行专业的分析,并提出有效的解决方案,帮助企业专注于提升业务效率和市场竞争力。

原创声明,本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

登录 后参与评论
0 条评论

相关文章

  • 从狭义SDN到广义SDN,网络自动化趋势下的SDN

    SDN的概念主要体现的是技术架构视角,强调的是实现网络设备的软件硬件解耦、网络系统的控制面与转发面解耦,以及整体全面的可编程性。SDN的优势在于它是基于系统全局...

    SDNLAB
  • 腾讯丁珂:从战略视角构筑云数据时代企业全方位攻防能力

    11月20日,腾讯全球数字生态大会城市峰会来到上海,数百位专家、学者、企业领袖围绕数字经济时代城市共荣、产业共创、生态共建等方向展开探讨。

    腾讯安全
  • 数字化成潮流,运维为啥也热了?

    由于数据价值逐渐被重视,相关技术产业逐渐成熟。加上疫情的出现大部分企业开展数字化业务,中国的企业服务市场再一次掀起热浪。

    ToB行业头条
  • 从我们多年项目实践中,告诉您企业为什么要做IT运维管理转型?

    业务发展往往驱动着IT运维管理的同步转型或升级,企业IT部门往往习惯于通过采购服务或管理工具满足要求。

    嘉为蓝鲸
  • 5.4.4 数字化运营场景之管理运营

    注:数字化运营场景,主要围绕:运行感知、技术运营、业务运营、管理运营。本篇挑“管理运营”分享。

    彭华盛
  • 视野升级,超融合厂商开始放眼核心业务连续性

    在获取足量头部客户的验证后,超融合厂商开始认真考虑如何从整体IT基础设施的角度,为客户提供数据保护,以满足它们对核心业务连续性的高要求。顺便,也继续从传统基础设...

    IT创事记
  • 初级、中级、高级运维各应必备哪些技能?

    人生就像一场游戏,这场游戏给我们带来了的许多困难,但是我们为了梦想,为了家人,为了自己不断奋斗着,努力工作。

    用户6543014
  • 超融合遍地开花,用户离“云计算自由”却依然很远?

    按理说,一项技术进入落地阶段,代表着该项技术已经趋于成熟,但事实上行业对于超融合的认知还很混乱,尤其是用户侧对于超融合的认知更是模糊。

    科技云报道
  • 浅析煤炭企业如何进行工控安全建设

    煤炭工业控制系统是整个煤炭企业安全生产监控系统信息的集成,它需要一个快速、安全、可靠的网络平台为大量的信息流动提供支撑,同时要有一个功能全面的安全生产信息应用系...

    FB客服
  • 关于OpenStack的九个关键问题

    编者注:本文转载自ithome。完整讲述了OpenStack 在如何使用、如何升级、和如何管理过程中的九个挑战。 01 OpenStack 会成为未来 10...

    人称T客
  • 用工具堆砌的DevOps 幻觉(上)

    第一届 DevOpsDays结束后,DevOps 运动则如星火燎原之势在全球发展开来。随着 DevOps 思想的不断传播,相对的质疑和批评也从未停止过。以至于到...

    用户1348170
  • 大规模微服务场景下灰度发布与流量染色实践

    本文内容选自中国DevOps社区年会 · 2019年会,刘超老师分享的《大规模微服务场景下灰度发布与流量染色实践》实录。

    kirito-moe
  • Flink成为字节跳动流处理唯一标准

    场景描述:本文将为大家展示字节跳动公司将 Jstorm 任务迁移到 Apache Flink 上的整个过程以及后续计划。你可以借此了解到字节跳动公司引入 Apa...

    大数据真好玩
  • Dubbo在Service Mesh下的思考和方案

    Service Mesh这个“热”词是2016年9月被“造”出来,而今年2018年更是被称为service Mesh的关键之年,各家大公司都希望能在这个思潮下领...

    kirito-moe
  • 腾讯:痛点驱动的 DevOps 实践

    ? 讲师 | 谭用 编辑 | 黄晓轩 讲师简介 ? 谭用 腾讯TEG研发管理部技术运营负责人 负责腾讯企业级研发管理平台建设与技术运营相关工作;十年运维领域工...

    DevOps时代
  • 浪潮网络步步为赢

    我们身边这个已经开始更广泛地连接人与物、物与物的网络,正在让那个传统只连接人与人的网络变得泛在化。

    IT创事记
  • 【重识云原生】第一章——不谋全局不足以谋一域-刊发版

            云原生(Cloud Native)的概念最早是由Pivotal公司的Matt Stine于2013年提出,并在《迁移到云原生架构》一书中总结为—...

    江中散人_Jun
  • 以太与PON非此即彼?新一代全光园区“智融”进化

    数字化业务量飙升刺激网络带宽需求暴涨,光进铜退的潮流锐不可当,园区网变成“全光”的天下似乎指日可待。

    IT创事记
  • 3.3.1 构建持续提升的故障管理能力

    随着系统架构不断升级,功能持续迭代,系统运行复杂性越来越高,故障的发生不可避免,且发生场景愈发无法预测。从企业角度看,系统故障影响客户体验,降低访问流量...

    彭华盛

扫码关注腾讯云开发者

领取腾讯云代金券