电商月将至,腾讯云DCDB助力电商企业应对支付洪峰

第34届中国数据库学术会议(NDBC 2017)已于2017年10月20日至22日在浙江大学举办。本次会议,腾讯云带着其分布式数据库DCDB(内部代号TDSQL)亮相大会,向全国600余名数据库技术的研究者、教师、同学和开发者展示了腾讯云的数据库技术。

浙江是中国电子商务大省,腾讯分布式数据库DCDB(内部代号TDSQL)恰好是解决类似于电商、O2O的订单交易、购买支付场景的利器。

为什么说DCDB适用于电商、02O等业务呢?众所周知,电商等互联网模式和碎片化的行为,无异给核心交易数据库带来巨大的挑战。即使是某些银行高大上的业务系统,其平均TPS约在10000,常规峰值约1倍;而在互联网场景中,任何智能设备都是交易终端,加上电商等经常出现限时抢购、秒杀等运营活动,无论哪种活动,从数据库角度就都意味着短时间并发和请求总量都远高于正常水平若不做好措施,结果就是花钱推广,反而砸掉自己招牌。通过总结,互联网场景的交易系统数据库可能经常遭遇以下情况: (1)峰值超过正常值数倍的业务请求。 (2)秒杀等场景将带来大量的线程影响性能。 (3)故障是常态,如何确保故障数据不错不丢,且不影响全局。 (4)性价比是业务重要考量点。

峰值超过正常值20倍以上的请求洪峰: 以腾讯米大师对接了腾讯内外十余万业务的支付交易,这些业务会不定期发布营销运营活动,如电商大促、春节红包、国庆献礼、游戏推广等。在2016全年出现了30多次均值5倍的请求洪峰, 有5次甚至超20倍。下图为近期某业务做午间大促,导致整个平台请求量猛增1倍(蓝线是上一日对比数据,红线是当日数据)。

类似问题也是电商等业务常见场景,而米大师的经验是,除了通过架构将支付系统按场景、业务、流量进行解耦,利用云的弹性(和云的冗余资源池),在活动时快速自动的部署业务服务器。并区分业务单元域(SET)部署,前置调度,做分流和异常隔离和缓存外,采用支持水平拆分的分布式架构的数据库。

因为数据库本身无法像逻辑层一样做隔离请求,而将几张大表水平拆分(分表)。能够让数据库可以随时横向扩展,因此平时只需要在性能方面预留一定冗余,确保偶发性小峰值并不影响整个数据库性能。如果遇到可预见的超高峰值,例如年度大促、春节活动等,由业务部门决定是否进行水平扩容。当然,分布式数据库的原来使得水平扩容十分简单,而且通过自动再均衡方案,扩容可以仅影响集群中的少数节点,而其他节点可以在扩容时仍然正常运行不会受到影响。

热点更新技术,从容应对秒杀等场景: “秒杀”场景下,大量的用户在极短的时间内请求少量商品。在数据库中,一个商品是一行存储,所以秒杀会导致大量的线程来竞争InnoDB行锁,当并发度越高时等待的线程也会越多,导致TPS下降RT上升。这会导致什么问题呢?要么秒杀时,抢购一个商品但整个平台出故障;要么就出现100个库存卖出去105个等各类异常。 当然,业内也有一些从数据库层面的解决方案,例如:把热点商品放到单独的热点库中;通过缓存系统(如Redis/消息队列等)缓存热点请求;或让业务层将lastmodifytime修改的多条SQL合并减少update。 而腾讯热点更新功能,是通过一个全局HASH表存储有INSERT/UPDATE请求的热点对象,制定热点SQL请求过来时,先查找HASH表中有无对应的热点对象,有就获取lock,会被阻塞;没有该热点对象,那么创建该热点对象的方式进行。这种方案通过简单扩展SQL语法和参数,使得业务不改变架构,仅需修改几行SQL的情况下,便可以快速应对秒杀等场景(原理如下图)。当然,配合缓存使用,可以进一步为业务提高性能,减少击穿的概率

根据测试,我们发现应用和不应用的热点更新技术会的效果差异非常明显(测试数据如下图)。

故障是常态,重要的是如何应对故障: 如果您的业务是规模比较大,那么无论是网络、硬件、软件或人为的故障都是难以避免。因此,数据库系统必须做到以下几点,才能尽可能小的影响业务

  • 只有保障数据强一致了才能保证故障切换的时候数据不错不丢。
  • 故障能不能影响全局,且尽量做到业务无感知。
  • 支持同城双活、两地三中心等架构
  • 立体组合的监控系统,能快速判断故障,定位问题。
  • 必须要有风险控制策略等措施保证数据安全

而腾讯分布式数据库DCDB发展了13年,早已默认数据强同步复制,任何节点故障,只要是已应答均可保证数据不错不丢。也可设置多种同步方案,不同的业务数据库采用不同复制策略以求在业务逻辑和数据一致性之间平衡。

分布式架构,也使得DCDB任意节点故障,并不会影响全局,且每个从节点都可用做只读访问。在某些仅软件故障的场景, DCDB的保持连接技术,可用软件故障,确保逻辑层(TProxy)和数据库连接不断开,且自动重发失败请求。此时业务是来说,感受就是某个请求时间稍长;即使是数据库事务,或自动回滚,或直接报错,数据不会错乱的。

由于DCDB的设计之初就是应用于腾讯内部金融支付类业务,因此同城双活、年底三中心对其来说早已成熟,常用方案如下图:

通过对系统从硬到软、从模块到流程、从系统升级到常规运维的立体化监控,并结合 “自愈”能力,可让99%常见故障自动解决,仅1%的故障需要人工干预,自动化的流程极大提高了故障修复响应效率。

当然,DCDB也是腾讯首个将完整的信息安全要求和风控体系做到整个数据库系统中的产品之一。包括业务和运维系统,我们提供恶意打击、稽核、实时风控等能力;在数据库层面,也提供了安全审核平台,数据库防火墙等一系列安全能力。

此外,成本控制是互联网企业成功的要素之一,如果是采用商业数据库,先互联网这种体量成本将是天价。而采用基于开源协议的分布式数据架构DCDB和腾讯云服务,按需使用且无高昂的license费用,将极大的节省业务使用数据库成本。

目前,作为支撑了腾讯内外超过100亿以账户,200亿以上的交易流水和海量的虚拟交易的数据库,腾讯云分布式数据库DCDB已经广泛应用在银行、保险、理财、电商、O2O等核心系统中。

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏吾真本

一张图读懂结对编程与单人开发的差异

一张图读懂结对编程与单人开发的差异。结对编程的好处(尤其适合软件模块之间耦合很强的场景):

623
来自专栏养码场

这13项技能让你从传统“撕”到互联网,论Java转型之不易(内含福利)

本人从传统外企转型到互联网已有3个年头,近两年来面试了很多来自传统行业的同行们。发现他们都有意走进处于风口的互联网,但是由于传统行业使用的技术栈与互联网的有所不...

643
来自专栏云计算D1net

私有云:硬件规划四大要素

要构建私有云需要考虑诸多因素,尤其是当你的预算并不宽裕的时候。通过仔细的规划硬件,容量,存储和网络配置,你就能将有限的预算做出高效的运用。 要找出云成本效益最高...

3286
来自专栏云计算D1net

超融合设备如何影响私有云部署

超融合设备为构建云计算基础设施提供了低风险的选择。这些预集成系统包括商业化的服务器和多个驱动器,以及允许在计算集群上共享这些驱动器的必要软件。 对于硬件专业知识...

33212
来自专栏架构师小秘圈

分库分表架构实践

作者介绍: 丁浪,现就职于某垂直电商平台,担任技术架构师。关注高并发、高可用的架构设计,对系统服务化、分库分表、性能调优等方面有深入研究和丰富实践经验。热衷于技...

4344
来自专栏CSDN技术头条

微服务与单一整体式架构的优劣浅析

责编/钱曙光,关注架构和算法领域 开发者要么出于本能,要么很快就能在痛苦中发觉:即便一个很小的变化也能改变一切。就像攀岩那样,每次挪移都会影响到未来的抉择,因此...

1907
来自专栏Albert陈凯

大数据实战项目《大型电商日志分析》的知识点大数据实战项目的知识点

大数据实战项目的知识点 1、大数据集群环境的搭建 CentOS 6.8、 hadoop-2.7.3、 hive-0.13.1 zookeeper-3.4....

3808
来自专栏SAP最佳业务实践

SAP最佳业务实践:返工处理(在制品)(202)-1业务概览

image.png 用途 生产订单中缺陷物料的处理 优点 在常规工序中出现废品时自动触发返工处理流程 车间返工处理后,可以追加确认额外的工时消耗和物料消耗...

2294
来自专栏Rainbond开源「容器云平台」

Serverless,下一个趋势?

1183
来自专栏IT大咖说

玩转Java开源项目

摘要 开发一个软件,并把源代码发布到github,就是开源么?如何能够开发一个有价值的开源项目、如何能够维持一个健康活跃的社区并让开源项目真正从中受益、如何能够...

3256

扫码关注云+社区