作者 | 陈仕昌
出品 | 沃趣科技
01
激荡年代
2019年,注定是不平凡的一年。
新中国成立 70 周年。
五四运动 100 周年。
中美建交迈入”不惑之年“。
5G 网络正式商用。
中美贸易战加速了国产化的坚定信心。
沃趣科技 QData Infinite 数据库业务永续解决方案,成功上线。
这是沃趣科技双活产品的又一次成功。
02
神无处不在
「 泛在 」,从英文的角度来看,最恰当的翻译应该是有拉丁语意的Ubiquitous,有「 神无处不在 」的意思。
2019 年 3 月,国家电网公司“两会”做出全面推进“三型两网”建设,加快打造具有全球竞争力的世界一流能源互联网企业的战略部署,是网络强国战略在公司的具体实践,是落实中央部署、发挥央企带头作用的重要举措,是适应内外部形势和挑战的必然要求。
而「 泛在电力物联网 」,就是围绕电力系统各环节,充分应用移动互联、人工智能等现代信息技术、先进通信技术,实现电力系统各环节万物互联、人机交互,具有状态全面感知、信息高效处理、应用便捷灵活特征的智慧服务系统。
为电网运行更安全、管理更精益、投资更精准、服务更优质开辟了一条新路,同时也可以充分发挥电网独特优势,开拓数字经济这一巨大蓝海市场。
为实现这一宏伟蓝图,对当下系统进行全面改造,成为了所有电力公司的重任。要想实现「 神无处不在 」,首先就要保证业务的永续运行,做好底层的建设就尤为重要。
03
莫畏浮云遮望眼,守得云开见月明
某电网公司,以实现云化、服务化、开放式IT架构升级的关键举措,将为公司提升数字化水平、培育发展新动能提供重要支撑,是公司数字化转型进程中的一个重要里程碑。
5 月 25 日,某电网公司的办公现场,集体合照,为的就是记住这历史性的一刻。在甲方总指挥的一声命令下,各个厂商通力合作,为了共同的目标,不遗余力,通宵达旦割接电网公司的最核心业务系统至新的双活平台。
这是已经不是首个电网公司在拥抱 x86 架构中,采用新的 Infiniband 网络技术,实现数据库业务双活的重要变革。
前期有很多人对新架构存在质疑,架构是否稳定?百公里的网络延迟下,性能是否可以支撑业务高峰期的并发要求?
客户向我们提出了非常严厉和苛刻的要求,也对我们是报以极大的期望。客户那既恨又爱的矛盾与焦虑感,让我们倍感亲切和压力。加之友商的密切关注,一股不服输的好胜心,让沃趣在场的实施专家们更为之亢奋。
「 数据库备库的日志同步正常!」
「 服务器 CPU 压力正常!」
「 95598 切过来了吗 ?」
「 95598 目前营销系统使用正常,IVR 语音导航播报正常 」
随着各方反馈的系统运行状况,意味着从传统存储设备割接至 x86 新架构双活平台的作业,成功了!
在后续的业务高峰期中,完美支撑住了高并发的压力,数据查询与传输、报表响应无等待、同步无阻塞。
接下来,我们用最真实数据说话。
04
传统汽车与特斯拉
客户的痛点:在业务高峰期对于老系统来说「 业务处理慢,稳定性不够,时常故障卡顿 」。
新老系统配置对比
老平台「单机房」
计算服务器:高端 RH8100 V3 八路机架服务器
存储服务器:Oceanstor 18000 V3
网络:8Gb SAN
双活平台「跨 30 公里」
计算节点:x86 两路 Q740XD 机架服务器
存储节点:x86 两路 Q740XD 机架服务器
网络:56Gb Infinitband
通过上面的配置,你没看错,我们使用了「 两路 」的服务器,替代了老系统的高端「 八路 」服务器。而且性能还远超于它。
是服务器 NB 吗?当然不是,我们连接了业界各个最优的组件,采用了最新的Infiniband 网络技术,对数据库层做了极致的调优,打造了一款碾压传统存储架构的高性能产品。
再继续往下看,上线后各维度的性能对比。
业务系统性能对比
行锁问题
业务系统的并发量是非常大。
改造前:老系统的数据库行锁居高不下,每次月初行锁可能会到 2000 - 3000 左右,数据库性能瓶颈较大,同时每次行锁过多时,都会导致系统缓慢,为了监控该情况,对行锁进行每半小时一次扫描监控,超过 100 个行锁时进行提示
改造后:行锁提示每月降低到 10 次以下。
如下图,6月 - 7月为改造后的数据
应用访问时长问题
业务系统 WEB 端调用 EJB 端时,超过 10000ms 的服务清单会进行日志记录,下面以 2019 年 5 月 7 日至 2019 年 6 月 16 日 mk_web3_16 节点的调用市场较长清单进行比对。数据库双活平台割接是在 2019 年 5 月 25 日,根据清单内容可以看出:
改造前:调用时长较长服务数量高达 500 ~ 3000 笔。
改造后:调用时长较长服务数量减少到 500笔以下,处理调用的性能提升 6 倍。
如下图,数据库双活平台割接是在 2019 年 5 月 25 日后
核心业务 SQL 语句的平均耗时对比
对比数据库的 AWR 报告主要 SQL 语句的平均耗时,性能提升2-8倍,如图所示。
数据库 Cache Fusion 等待事件对比
Cache Fusion 缓存融合技术,通过高速的 Private Interconnect 在实例间进行数据块传递,如果 Private Interconnect 的网络延迟过高,就会导致性能的下降,以下指标就是体现多个数据库实例之间传递数据块的延迟情况。
蓝色:单机房的老平台
红色:新的双活平台
双活平台的 GC 平均等待时间小于 1ms。
gc cr/current grant 2-way 等待时间降低了66 倍,如图所示。
gc cr/current block 2-way 等待时间降低了 200 倍,如图所示。
数据库读写IO平均时延对比
读延迟越低,性能越高。
双活平台单块读延迟(db file sequential read)相比老平台,最高降低了 32 倍;
双活平台多块读延迟(db file scattered read)相比老平台 ,最高降低了 16 倍;
双活平台在表空间维度 I/O 读延迟,相比至老平台降低了 50 倍。
优越性能
新双活平台的上线,比老系统的负载降低了40%,整体业务性能提升5 倍以上。
05
强者开道,披荆斩棘
沃趣科技 QData Infinite 数据库业务永续解决方案,携稳定、可靠、高性能等“利剑”,助力泛在电力物联网快速建设与发展。