余额宝的小算盘:马云肥水不流外人田

名词科普之“去IOE”:指的是摆脱掉IT部署中原有的IBM小型机、Oracle数据库以及EMC存储的过度依赖。于2009年首先由阿里巴巴作为战略提出。其做法是用成本更加低廉的软件(如MYSQL替代Oracle)以消除“IOE”对自己数据库系统的垄断。这一行动也被业内解读为低成本化的表现,因为云服务一旦扩张,IOE系统的维护成本将非常高。】

余额宝、百度百发、腾讯财付通谋划的互联网理财工具,吹响了互联网对金融行业的进军节奏。而后,网易、和讯、京东商城、苏宁云商等二线实力企业纷纷涉水。另一边,一众金融精英也在频频转换思路,不仅银行网络中心从副行长牵头的服务部门一跃成为行长主抓的业务部门,而且高调发布互联网金融理财产品与携手互联网企业并行,力图实现金融互联网的新价值。一时之间,互联网金融热潮涌动。

但汹涌的背后,是鲜为人知的技术实战。从传统封闭的IOE格局迁移到更加动态扩展、成本更经济的云平台中,要跨越的障碍实在不少。即使在云计算发源地——美国,囿于安全性、合规性和风险等方面的挑战,金融业虽然与AWS接触频频,但还没有走出实质性的那一步。到了国内,习惯有标杆可以模仿的我们,是继续等待?还是走出新路?

5个月,开户用户超过1600万,货币基金累计申购超过1300亿的余额宝在市场上砸出了声音。而我们一直极为关注的,余额宝一期二期技术迁移实践经验也终于浮出水面。余额宝的背后是四方力量:支付宝、天弘基金(基金合作方)、金证股份(软件供应商)和阿里云,在2013年阿里云开发者大会中,记者有机会直面其中三位核心人士:天弘基金创新支持部总经理樊振华,深圳市金证科技股份有限公司副总裁徐岷波,阿里云金融云服务架构师白培新,却发现:经验,比我们想象的要复杂;过程,却比大家想象的要简单。

一期“IOE”,二期要“入”云,原因何在?

外界看待余额宝是个整体,但没想到在技术实践上,余额宝是有一期和二期工程的。樊振华说:“最初余额宝与互联网的尝试,在整个基金行业也是第一次。完全是摸着石头过河。为了稳妥,我们在一期的时候是采用传统IOE的架构,总投资400多万。但是没有想到数据量和交易量会增长幅度如此大,远超平台承受能力,以至于到了余额宝二期时,如果还采用IOE的模式,初步估算至少需要投入5000万(主系统+同城灾备+异地灾备等)。再加上后期人力和周期服务,要三个月完成目标,这将是不可承受之重。”

怎么办?要知道,由于安全、合规和风险等方面的考虑,金融对公有云很抵制。但当余额宝6月13日上线,6月17日召开新闻发布会之后,天弘与支付宝一起来评估是否在11月的时候支持“双十一”大促时,却发现:如果支持,那么按照2012年的数据,余额宝平台所承受的压力要骤增数十倍甚至数百倍,估算约为1亿客户数,3亿笔交易,2.5小时完成清算。采用当时的IOE架构,投入将要增加数千万,设备、软件之外,甚至是余额宝一期所用的机房也完全无法满足需求。

不仅如此,余额宝发布之后不到两个月,就为天弘基金带来百亿级别的资金增量及百万级活跃用户,平均每月规模增长100亿元左右,天弘增利宝已经成为国内用户数最多的货币基金。如此增长之后,保证安全+降低成本+为未来业务提供弹性扩展架构已经成为必须。

如果说6月13日是一期的截止时间点的话,那么“二期,是从7月初开始开发的”。没有先例,是否就需要继续等待下去?没有先例,是否要继续投入上千万去扩容和升级?没有先例,是不是可以等等看,期待国外会有案例给以启迪和复制?可市场会给予大家等待的时间么?

“余额宝迁移到云平台上,已经成为我们自发的需求。当然,也别无其他选择。”樊振华说。

下定决心,决策过程反而没有想象中那么复杂了。“评估系统上线,只有三项标准:成本评估、安全评估、架构扩展评估。尽管国际上,金融行业还也没有采用公有云平台的先例。这不仅是单纯的技术障碍,还是意识、理解、勇气和监管要求等复杂交织的结果。但市场逼着我们向前,所以决策并没有大家想象的那么复杂。”

事实证明,“没有选择的选择,到后来却发现是最好的选择。”樊振华记者说。

去IOE,最难的是去Oracle数据库

要将曾经根植在IOE的软件迁移到阿里云上,开发、调整、优化必不可少。但时间如此紧张(最多就3个月),那么,一开始,打造合作多方的信任关系自然至关重要。

“余额宝本身拥有极强的互联网属性,数据量大、业务量大、响应速度要求高。时间这么紧,天弘、金证和阿里云、支付宝,简单沟通后立即投入了启动工作。也因为时间太紧,所以我们也没有调研的时间,更没有可调研的成功案例。可以说,基于多方的信任,资源共享和无所畏惧,是我们走到一起的根本原因。”樊振华如此表示。

去IOE,硬件相对容易些,最难的是与应用密切相关的数据库。

Oracle数据库向MySQL转换的时候,连最简单的批量插入,由于对于底层理解的不同,都有很多问题。在Oracle中,开发者是不需要关心底层问题的,但在MySQL则不同,要关注很多。批量提交,事务开启还是关闭,都需要人为干预。

数据库解决的问题是插入、删除修改。所以迁移的时候,这些问题需要一个一个去研究去解决,然后复制过来一个一个测试,开发阶段的测试工作量可想而知。业内认为MySQL无法支撑大数据清算,这是有根据的。但在彻底了解MySQL之后,天弘感觉迁移就如同修路一样,原来基于IOE是条路,而基于云架构,一条不行,可以修50条路,100条路,总归是可以化整为零,用水平化、分库分表等方式,并行化思路来解决,用小单位来解决问题的。虽然在迁移中,对中间层的要求更高,但是可行的。

白培新详细介绍了一些技术难点。在数据库切换过程中遇到一些比较困难的点,比如说Oracle集中管理强,MySQL单机的能力显然要弱很多。余额宝迁移到阿里云上之后,要考虑双十一对于天弘基金系统吞吐量的压力。在评审架构后,通过对性能进行预估,采用了50个MySQL实例的方式。但需要天弘将业务逻辑、应用层所用的数据库通过一个维度来进行水平拆分,然后将这些业务平均分配在这50个MySQL实例上,以保证每一个MySQL的性能负载比较平均,从而实现用50个MySQL来支撑的大业务量。阿里在去IOE方面实践的时间长,有经验,阿里云底层专业的DBA团队和数据库专家都参与到项目中,共同和天弘来做拆分方案。而后,在从Oracle平台到MySQL的过程中,金证承担了主要的迁移工作。

徐岷波表示:“金证在金融行业有20年的历史了,客户广泛。由于业务需要,金证对DB2、Sybase、Oracle、SQLServer这样在金融行业应用较多的数据库都有应用。这也使得金证在开发新系统的时候,一直非常关注‘跨平台特性’,尽可能不要用到哪一种单一数据库的很特殊的功能。所以金证开发的系统,完全没有采用存储过程的模式,所有的应用和业务逻辑都是在中间件这一层,于是所有的业务(数据管理、业务服务等,如现在用到的PA和直销,未来用到的交易、管理、甚至数据仓库这样的业务系统等)都可以放在应用服务器上,数据库就是存储的功能。这也使得从余额宝的Oracle到MySQL的切换数据库比较容易实现。除此以外,余额宝使用的中间件也是金证开发的,原有软件架构非常好,虽然第一次接触MySQL,但跨平台很容易实现迁移。但如果系统利用了大量存储,且大量业务是跑在数据库上,中间件也是用的Oracle的,那么应用移植其实就非常难,因为每一种数据库的存储过程的差别是非常大的,现在来看其实有很多有利的因素是我们各方的配合达到现在这样的效果。”

事实上,单纯从技术上看,余额宝是个性且不易复制的。一方面,金证的直销系统和中间件都是自主开发的,比较可控;另一方面,业务系统对底层的业务依赖主要是在应用层,整体的改造难度较小。不过即使如此,有了多方汇聚的极强技术实力,阿里云还是和金证一起,用两天时间来将金证系统中所有SQL语句都过了一遍,大概是有几十万条SQL语句,才彻底解决一些性能优化的问题。

好在,迁移到云上之后,白培新表示:“在预测环节,实时并发数,要求为3000TPS(每秒可以开3000户),但测试结果是可以开到5000,极限容量可以到12000TPS。”徐岷波进一步补充说:“50个MySQL的实例完全可以支撑余额宝的双十一峰值业务,并且在没有做过任何优化的情况下,还留出了很大余量。如果经过系统调优,以过去的工作经验来看,在现有的设备和硬件网络环境下,性能翻一倍应该是正常的。”

除此以外,樊振华对安全也很满意:“在测试中,阿里云提供的数据库服务主备切换时,速度非常快。再加上我们化整为零的策略,全部热插播硬盘,使得数据的安全性得到了很大的满足。一直到现在,都没有出现过任何问题。坦白说,在基础平台安全方面,阿里云已经比较成熟了,尤其是在应对高流量、大数据量冲击的时候,要比很多中小基金自己的系统稳定和安全很多。”

据悉,每一次系统迁移的演练是需要36个小时,反复演练多次,确保万无一失,才在9月份正式做了切换。

下一步,大数据挖掘与分析

从IOE向云中迁移,余额宝的项目团队作出了非凡的努力。

樊振华说:“天弘投入了10个人,金证投入20多人,阿里云(主要是专业金融集群)投入了50多人,支付宝投入了数十人,就这样,组建了我们的百人技术团队。项目组从7月闭关到9月底,每天从早上8点开始一直到晚上12点,根本没有周六周日,很辛苦,非常辛苦。而由于项目开发中出现了很多问题,非常多的问题,争吵、低落、抱怨都是常态,甚至一度整个团队都觉得项目失败的概率很高,几乎处于崩溃边缘。但好在几位项目带头人非常有信心,知道最高的风险点在哪里,我们和金证、阿里云从架构设计到技术迁移、业务实现,一点点来抠,一点点地解决问题。四方合作,忘我的奉献和投入让我们终于拿下这个如今成为行业典范的项目。现在余额宝的系统架设在300余台云主机上,使用了阿里云的ECS+RDS+SLB+云监控等多项服务。”

“真正去了IOE,发现没有想象中复杂。”几乎是每位组员的感受。

一直很低调的余额宝,在技术上更加低调,老老实实做事。据悉,二期整个团队都是封闭的,“我们做什么外面基本都不知道”。在切身体验了互联网金融“用户多,数据量大;分时段爆发增长;用户体验要求很高”的特性之后,下一步,天弘希望能够联合更多伙伴,建设数据中心、数据仓库,并继续完善安全监控,争取在数据挖掘和分析方面,提供更多“非高大上”的产品以及创新的服务。

写在最后:

余额宝的成功,是个性的,即使从共性上来分析,且也仅能代表金融行业中新机构成立,新系统建设这两个方向。但不可否认的是,余额宝揭示了技术变迁的一种可能,尤其是在如今大数据背景之下。

来源:CSDN

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2014-02-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯云技术沙龙

段克晓:助力产品打造千亿级营收——腾讯计费(米大师)支付服务之道

大家下午好!开场的时候主持人介绍了腾讯计费米大师在4月份正式开放了,对外提供saas服务,大家可能想知道米大师的核心能力是什么,能对合作伙伴提供哪些服务,今天很...

95560
来自专栏腾讯研究院的专栏

《互联网广告管理暂行办法》亮点解读┃腾讯法律评论

杨乐  腾讯研究院高级研究员 腾讯研究院博士后   2016年7月8日上午,工商总局历经数年,数易其稿,在新《广告法》实施10个月之后,正式对外公布《互联网...

28190
来自专栏顶级程序员

体验了150个小程序以及我的思考

【高频使用】 美团外卖+ 纯点餐没有叽叽歪歪的各种活动让你不知道吃什么,自动定位功能比较准,第一次登陆要绑定下手机号,大多数人的好评小程序。 滴滴公交查询 基...

86590
来自专栏云计算D1net

云存储市场的回顾与展望

回顾2013年云存储市场,并预测2014云存储发展 2013年度回顾 云计算,特别是云存储,已经有些年月了。我们目睹了Nirvanix公司的消亡,斯诺登揭露美国...

35990
来自专栏FreeBuf

Reddit关闭暗网社区,引发用户热议

众所周知,暗网中充斥着武器、毒品、恶意软件、数据入侵、DDoS服务、欺诈服务等,但是只能通过特殊手段才能访问。但巨大的地下市场也催生了表网中与暗网有关的社区,R...

54860
来自专栏SAP最佳业务实践

从SAP最佳业务实践看企业管理(135)- 企业标准采购作业流程及其内部控制

关于企业标准采购作业流程及其内部控制的构思 在生产型企业,为销售而生产、为生产而采购是一个环环相扣的物料输入输出的动态过程,其采购流程运行的成功与否将直接影响到...

22960
来自专栏知晓程序

五一假期去哪玩?这款小程序,带你完美避开人山人海

向下滑动,各个旅行目的地,按照地区依次排列,每个地区下方还有一句话标签,让人心生向往。

10210
来自专栏知晓程序

微信朋友圈屏蔽今日头条 / 小程序「功能直达」新能力上线 / 腾讯传播「儿童邪典视频」被严处

最近,有网友发现转到朋友圈「今日头条」内容有时仅自己可见,而好友无法看到自己的分享。

34210
来自专栏华章科技

看雪2018安全开发者峰会,议题干货、安全大咖、头脑风暴!

2018年7月21日,拥有18年悠久历史的老牌安全技术社区——看雪学院联手国内最大开发者社区CSDN,倾力打造一场技术干货的饕餮盛宴——2018 安全开发者峰会...

9810
来自专栏FreeBuf

微信仓促更新,黑产加速圈钱,“微信号”黑市规模接近40亿

在这次微信的更新中,长按公众号文章会出现“未完成的功能”字样,此次改版在还“未完成”状态仓促上马,说明张小龙背负着越来越重的商业变现压力。讽刺的是,就在张小龙眼...

34630

扫码关注云+社区

领取腾讯云代金券