电商月将至,腾讯云DCDB助力电商企业应对支付洪峰

第34届中国数据库学术会议(NDBC 2017)已于2017年10月20日至22日在浙江大学举办。本次会议,腾讯云带着其分布式数据库DCDB(内部代号TDSQL)亮相大会,向全国600余名数据库技术的研究者、教师、同学和开发者展示了腾讯云的数据库技术。

浙江是中国电子商务大省,腾讯分布式数据库DCDB(内部代号TDSQL)恰好是解决类似于电商、O2O的订单交易、购买支付场景的利器。

为什么说DCDB适用于电商、02O等业务呢?众所周知,电商等互联网模式和碎片化的行为,无异给核心交易数据库带来巨大的挑战。即使是某些银行高大上的业务系统,其平均TPS约在10000,常规峰值约1倍;而在互联网场景中,任何智能设备都是交易终端,加上电商等经常出现限时抢购、秒杀等运营活动,无论哪种活动,从数据库角度就都意味着短时间并发和请求总量都远高于正常水平若不做好措施,结果就是花钱推广,反而砸掉自己招牌。通过总结,互联网场景的交易系统数据库可能经常遭遇以下情况: (1)峰值超过正常值数倍的业务请求。 (2)秒杀等场景将带来大量的线程影响性能。 (3)故障是常态,如何确保故障数据不错不丢,且不影响全局。 (4)性价比是业务重要考量点。

峰值超过正常值20倍以上的请求洪峰: 以腾讯米大师对接了腾讯内外十余万业务的支付交易,这些业务会不定期发布营销运营活动,如电商大促、春节红包、国庆献礼、游戏推广等。在2016全年出现了30多次均值5倍的请求洪峰, 有5次甚至超20倍。下图为近期某业务做午间大促,导致整个平台请求量猛增1倍(蓝线是上一日对比数据,红线是当日数据)。

类似问题也是电商等业务常见场景,而米大师的经验是,除了通过架构将支付系统按场景、业务、流量进行解耦,利用云的弹性(和云的冗余资源池),在活动时快速自动的部署业务服务器。并区分业务单元域(SET)部署,前置调度,做分流和异常隔离和缓存外,采用支持水平拆分的分布式架构的数据库。

因为数据库本身无法像逻辑层一样做隔离请求,而将几张大表水平拆分(分表)。能够让数据库可以随时横向扩展,因此平时只需要在性能方面预留一定冗余,确保偶发性小峰值并不影响整个数据库性能。如果遇到可预见的超高峰值,例如年度大促、春节活动等,由业务部门决定是否进行水平扩容。当然,分布式数据库的原来使得水平扩容十分简单,而且通过自动再均衡方案,扩容可以仅影响集群中的少数节点,而其他节点可以在扩容时仍然正常运行不会受到影响。

热点更新技术,从容应对秒杀等场景: “秒杀”场景下,大量的用户在极短的时间内请求少量商品。在数据库中,一个商品是一行存储,所以秒杀会导致大量的线程来竞争InnoDB行锁,当并发度越高时等待的线程也会越多,导致TPS下降RT上升。这会导致什么问题呢?要么秒杀时,抢购一个商品但整个平台出故障;要么就出现100个库存卖出去105个等各类异常。 当然,业内也有一些从数据库层面的解决方案,例如:把热点商品放到单独的热点库中;通过缓存系统(如Redis/消息队列等)缓存热点请求;或让业务层将lastmodifytime修改的多条SQL合并减少update。 而腾讯热点更新功能,是通过一个全局HASH表存储有INSERT/UPDATE请求的热点对象,制定热点SQL请求过来时,先查找HASH表中有无对应的热点对象,有就获取lock,会被阻塞;没有该热点对象,那么创建该热点对象的方式进行。这种方案通过简单扩展SQL语法和参数,使得业务不改变架构,仅需修改几行SQL的情况下,便可以快速应对秒杀等场景(原理如下图)。当然,配合缓存使用,可以进一步为业务提高性能,减少击穿的概率

根据测试,我们发现应用和不应用的热点更新技术会的效果差异非常明显(测试数据如下图)。

故障是常态,重要的是如何应对故障: 如果您的业务是规模比较大,那么无论是网络、硬件、软件或人为的故障都是难以避免。因此,数据库系统必须做到以下几点,才能尽可能小的影响业务

  • 只有保障数据强一致了才能保证故障切换的时候数据不错不丢。
  • 故障能不能影响全局,且尽量做到业务无感知。
  • 支持同城双活、两地三中心等架构
  • 立体组合的监控系统,能快速判断故障,定位问题。
  • 必须要有风险控制策略等措施保证数据安全

而腾讯分布式数据库DCDB发展了13年,早已默认数据强同步复制,任何节点故障,只要是已应答均可保证数据不错不丢。也可设置多种同步方案,不同的业务数据库采用不同复制策略以求在业务逻辑和数据一致性之间平衡。

分布式架构,也使得DCDB任意节点故障,并不会影响全局,且每个从节点都可用做只读访问。在某些仅软件故障的场景, DCDB的保持连接技术,可用软件故障,确保逻辑层(TProxy)和数据库连接不断开,且自动重发失败请求。此时业务是来说,感受就是某个请求时间稍长;即使是数据库事务,或自动回滚,或直接报错,数据不会错乱的。

由于DCDB的设计之初就是应用于腾讯内部金融支付类业务,因此同城双活、年底三中心对其来说早已成熟,常用方案如下图:

通过对系统从硬到软、从模块到流程、从系统升级到常规运维的立体化监控,并结合 “自愈”能力,可让99%常见故障自动解决,仅1%的故障需要人工干预,自动化的流程极大提高了故障修复响应效率。

当然,DCDB也是腾讯首个将完整的信息安全要求和风控体系做到整个数据库系统中的产品之一。包括业务和运维系统,我们提供恶意打击、稽核、实时风控等能力;在数据库层面,也提供了安全审核平台,数据库防火墙等一系列安全能力。

此外,成本控制是互联网企业成功的要素之一,如果是采用商业数据库,先互联网这种体量成本将是天价。而采用基于开源协议的分布式数据架构DCDB和腾讯云服务,按需使用且无高昂的license费用,将极大的节省业务使用数据库成本。

目前,作为支撑了腾讯内外超过100亿以账户,200亿以上的交易流水和海量的虚拟交易的数据库,腾讯云分布式数据库DCDB已经广泛应用在银行、保险、理财、电商、O2O等核心系统中。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏逸鹏说道

80.8亿个微信红包技术难点在哪里?

摘要:今年除夕当日微信红包的参与人数达到4.2亿人,收发总量达80.8亿个,是羊年除夕10.1亿个的8倍。最高峰发生在00:06:09,每秒钟收发40.9万个红...

40818
来自专栏TAPD

TAPD持续集成解决方案新鲜出炉,快来提前尝鲜~

? 这是一篇正经的福利帖。 如果你的团队希望提升研发效率, 那么持续集成是个必不可少的选择。 引入持续集成可以快速发现问题、 提升团队研发效率哦~ ? 然而现...

845
来自专栏企鹅号快讯

小程序飞一般的前进,你还在懵吗?

出处:库博 作者:曦 临近年末,对于新媒体小编来说,简直是一场“年终盘点”的盛大狂欢。 2017我们总共吃了多少大瓜? 2017有哪些潮流热点被你漏掉了? ……...

2077
来自专栏知晓程序

微信小程序发布时间出炉!全面了解小程序的前世今生

1013
来自专栏花叔的专栏

“附近的小程序”上线,小程序又丢了个R技能

微信官方半夜又放大招,这次是憋了很久的“附近的小程序” “附近的小程序”正式开放: 有小程序的商户,可以快速将门店小程序或普通小程序展示在“附近”。 当用...

2816
来自专栏SAP最佳业务实践

SAP最佳业务实践:MM–管道资源物料的采购(903)-1业务概览

用途 在化工行业,制造流程需要的一些原材料通过供应商管道资源提供,这是常见情况。 该业务情景显示管道资源物料采购的处理的特性 优点 使用集成数据库:例如...

3214
来自专栏Albert陈凯

一线公司hadoop实际案例及其应用

Hadoop的具体使用案例,我们选取了Yahoo!、百度、Facebook、eBay和海量数据排序为例进行说明,主要介绍了商业公司如何使用Hadoop来增强自己...

3376
来自专栏腾讯技术工程官方号的专栏

春节微信访问突发,存储业务如何平稳度过?

存储业务里面有很多访问突发的业务,其中微信就是一个典型的业务。微信承担了亿万用户的图片、视频和文件的收发,遇到特殊热点事件或者重大节假日,访问次数会突发10倍以...

3813
来自专栏申龙斌的程序人生

微信小程序要来了,你做好准备了吗?

9月22日一大早,看到【姜胡说】公众号中画了一张风口的猪的图片,进入后发现原来他也要办直播了,另外就是他得到了微信平台的小程序内测账号,直播正在风口,腾讯的这...

2827
来自专栏美团技术团队

2000万日订单背后:美团外卖客户端高可用建设体系

2142

扫码关注云+社区