【运维故事】记一次系统重大升级的经历

来源:运维人那些事儿

ID:jzjytd2016

记一次系统重大升级的经历

时光荏苒,一晃自己从事证券行业信息系统运维工作已逾十年!回顾以往运维经历,历历在目。

作为以利润为中心的证券公司,IT后台支持部门是不直接创造利润的,虽然小到日常业务处理、帐务核算,大到整个公司的经营管理、业务创新和决策支持,背后都由IT系统支撑,但是绝大多数人不了解我们的工作,也许某种程度上存在理解误区,认为系统运转正常是应该的,只有当系统出现故障时,才会意识到我们的存在。但是大家不知道的是系统正常运转的每一天,都离不开有“强迫症”运维人员的默默付出,正能量的说法是岁月静好,是有人为我们负重而行。

作为一个运维人,应该每个人都有些许不同的经历。对于我们集中交易运维小组来说,系统升级的体会却是一样的。在此我就以3.31号周六系统升级为例,来给大家展示系统重大升级的经历。对于承载着一千多万客户的集中交易系统来说,它的实时性很强,对稳定性要求很高,每一次系统重大升级,运维任务都很重,信息技术人员任何小的疏忽和拖拉,就可能造成系统的中断,影响客户群体的数量规模会逐渐放大,就可能给公司带来巨大的经济和声誉损失。所以在升级前期我们会做很多铺垫工作,保证升级万无一失。

01

升级前...

在升级前几周,我们就要开始研究升级包,并仔细检查合并升级包,了解升级变更的具体内容,分析升级后对我们现有系统业务的影响。我们还会和其他券商多做沟通交流,了解他们的升级进展情况,确定版本。同时还需要同开发商保持密切联系,看是否还有对应补充升级包,确保我们的升级补丁包是最佳版本。

考虑到我们历史库数据量庞大,升级时间很长,最长的一次历时将近40小时,因此在系统升级前的周五晚上,正常清算完成后,我们升级了一台历史库,备份另一台历史库数据,这样不仅可以充分利用时间,还能尽早验证历史脚本是否正常,便于在开市前正常完成历史库的升级。

02

升级时...

周六升级当天,我们组织营业部进行全业务的升级验证,因此我们要准备好测试环境。当清晨的天空微微泛白,我们提着家人提前准备好的早餐,坐上了新闻中早高峰拥挤不堪而现在能从头望到尾的空空地铁。7:10到达公司后,开启一天的紧张工作。

首先检查昨晚历史库升级的状态和进度,预估升级时间(其实是判断第二天才能回,还是当天能回J),发现历史库处于正常升级状态后,欣喜若狂,接下来就是升级测试环境的准备工作,譬如删除数据库复制,备份系统数据库、备份行情文件、加挂电话委托测试语音、重启并挂起交易系统数据库、提交测试环境脚本、升级包、设置相关参数等等。

测试验证期间,我们会尽可能多的验证系统的功能,争取覆盖全部业务,同时积极关注内部交流群营业部的测试信息反馈,并同网上交易中心等外围测试人员保持密切沟通,针对提出的问题进行分析,问题是否正常,还是会影响系统的正常运行,并将重要疑问及时反馈开发商,尽可能做到不带疑问升级。

03

升级后...

下午3:30测试完后,根据营业部以及网上交易等参测方测试反馈,没有特别的技术疑问,我们准备正式对生产环境当前交易数据库进行升级。首先我们关闭测试环境,恢复行情文件、恢复电话委托语音,重启所有应用服务器、重启数据库服务器、核对数据,开始升级过程,顺利完成!检查升级日志,一切正常!忍不住内心的欣喜(对于运维人来说,系统一切正常就是最开心的事情),我们继续将灾备系统的数据库升级,再通过生产库建数据库复制模式用于灾备当前库的数据同步,接下来我们将重建DTS数据导出,待所有数据库升级以及复制同步完成后,开启系统完成集中交易系统归档、系统初始化、参数检查等工作,待观察到客户委托正常进入后,已经是晚上11:00,一天的系统升级加班工作终于圆满完成。虽然回到家连眼皮都快睁不开了,心情却无比放松。

以上就是我们一天运维工作的缩影,运维不是每一天都轰轰烈烈,激情澎湃,更多的是一份耐心、一份责任感。运维工作既有万亿行情下高压超长时间“用生命在清算”,系统故障时争分夺秒的紧张处理,系统升级时的披星戴月,也有顺利完成升级后,一起坚守陪伴的兄弟们快乐归巢,品尝锅里温热的爱心加餐,还有休息期间欢乐斗地主、球技对决等等的愉快时光,这一切,是如此的饱满充实,我为我是运维人而自豪!

原文发布于微信公众号 - 马哥Linux运维(magedu-Linux)

原文发表时间:2018-05-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Albert陈凯

2018-08-06 数据权限管理权限管理的目标是什么?安全与便利的矛盾,有解么?总结常见开源方案基于开发平台服务入口的权限管控思路

https://blog.csdn.net/colorant/article/details/78672404

862
来自专栏人称T客

对话 VMware CEO Pat Gelsinger:VM如何应对Docker容器技术?

本文转载自:iThome Pat Gelsinger执掌虚拟化软体VMware不到5年。目前,不论是AWS或是Google所勾勒的未来IT愿景,或是以NoOps...

2403
来自专栏EAWorld

DevOps与合规性:鱼和熊掌兼得指南

编者按:很多行业身处强力监管领域,因而格外强调合规性。反映在IT上就是开发、部署和运维等规范(比如开发团队不能碰生产日志)的不可或缺。本文中提到的一些方法(如自...

2994
来自专栏区块链资讯

Cash Shuffle的BCH在稳步测试中前进

去年12月,针对比特币现金用户发布了一项名为Cash Shuffle的新隐私协议。应用程序从一开始就有稳定的发展,而这周开发人员说,平台的alpha测试已经成功...

1284

日志分析工具:开源与商用对比

关于这个主题有人已经写了诸多篇很好的文章,我们已经将其汇聚在本博客底的链接中供您阅读。所以相比于再写一篇凑热闹的文章而言,我仅想分享我和Search Techn...

3413
来自专栏逸鹏说道

WP粉幸福时刻降临?微软上周突然十分积极

  Windows 10 Mobile 操作系统依然在内部有条不紊的开发中,微软没有透露任何有关该全新智能手机操作系统最终正式版的发布时间。不过,或许微软的粉丝...

2594
来自专栏知晓程序

明天起,不这样开发票就无法报销!这个小程序,帮你正确开发票 | 亲儿子 #8

随着微信团队的不断努力,小程序也变得日益完善。小程序以其方便的使用条件、更低的开发门槛吸引了很多人。

621
来自专栏人称T客

Container 技术是否能取代VMware虚拟化?

独家专访VMware执行长Pat Gelsinger:VM对战Container如何胜出? 全云端IT,或NoOps、Container和微服务设计为主的Ne...

3234
来自专栏小白课代表

小白课代表的软件目录~还有大家的需求

1112
来自专栏安智客

浅谈三星KNOX安全解决方案

我们之前谈过各种TEE的软硬件实现,包括Intel SGX方案、AMD的PSP技术、TI公司的M-shield安全技术、以及MIP架构上的虚拟化TEE实现等...

2526

扫码关注云+社区