基础科技大揭密(一):大数据平台

其实大数据已经存在了这么久,却在Facebook这个历史里程碑事件当中再次把大数据推到人们的面前。究竟我们说的大数据是什么,是怎样在发挥作用的?现在Fintech的热点又是区块链又是人工智能,那么大数据是已经成熟到我们像数据库一样直接使用就好了么?我们在这个技术上的竞争优势又在哪里?我们的方向又在哪里?这次请我们团队内,低调奢华有内涵,先干为敬的帅哥,来通过一篇文章给大家细细道来,让大家知道为什么我们敢说自己在Fintech领域处于领先地位。

01

什么是大数据

大数据指“庞大和复杂”到传统软件工具,无法在一定时间范围进行有效处理的数据集。

挑战来自对大数据的分析、捕捉、策划、筛选、展示、搜索、共享、存储、传输、查询、更新、信息安全等各方各面。需要“新处理模式”才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

到底有多庞大多复杂的数据量和计算量?我们来看看Google搜索引擎的网页排名是怎么算出来的,其中基础要素之一的PageRank算法,所要面临的大数据挑战。为了计算PageRank,到2018年,Google索引了近480亿的网页。可以想象每轮PR值的更新,需要爬取480亿个网页,解析出这480亿个网页之间的,最新的链接关系转移概率矩阵(480亿行×480亿列的矩阵M,Mij表示从页面j跳转到页面i的概率,容我晕一会@_@……),然后根据这巨大的矩阵和原有PageRank,迭代计算和更新这480亿网页中每个网页的PR值。实际的计算还要考虑更多复杂得多的维度。

如此庞大复杂的计算和存储挑战,怎么破?Google的答案是分布式,横向扩展,用分布式并行化计算存储技术+海量普通PC服务器,构建高性能、高可靠、高可扩展的海量数据计算存储系统。将成千上万台PC服务器,在大数据平台技术支撑下协同服务于同一个任务,应对上述大数据挑战。2010年左右就有新闻报道Google有近100万台的服务器。

大数据场景的挑战催生了Google的一系列分布式并行化计算存储技术,其中GFS(分布式文件系统)、MapReduce(分布式并行计算模型)、Bigtable(分布式结构化存储)三篇论文,被称为大数据平台计算存储技术三基石。依托其大数据平台系统,达成了上述的大数据挑战,Google得到的Value,是超7000亿美金的市值。

大数据的主要特征,包含了如下4个V:

Volume(大量)

TB、PB级数据量已成为常态;

Velocity(高速)

实时秒级、毫秒级计算处理时效;

Variety(多样)

多渠道、文本影音图像多种格式,结构不定;

Veracity(真实性)

海量数据中隐藏大量不完整不准确、失真、伪冒数据,而又具有容错性,需去伪存真炼数成金。

Volume+Velocity+Variety+Veracity=>Value,处理前4个V的能力越强,就越可能获得更大的第5个V,即Value 价值。需要我们形成数据化思维,数据即资产,意识到数据的重要性,意识到获取与利用数据的重要性,意识到数据时代的来临,IT(Information technology) -> DT(Data technology)。

这4个V所需的处理能力,正是大数据平台所提供的能力。经过互联网和移动互联网的高速发展,当下大数据资源的规模和丰富已有小成。我们相信随着互联网+、物联网和智慧社会的进一步发展,带来的大数据资源将会是另外一个数量级的,对4个V的处理能力要求也是另一个数量级的。

02

金融级别的大数据平台的意义

目前各大互联网公司,都在各种渠道介绍过自己的大数据平台架构,整体的架构和层次划分上都大同小异。结合各种公开资料以及我们实际构建与应用的经验,我们整理了一个相对普适的大数据平台架构如下图。

可见从数据平台的角度来看,“大”数据平台和“传统”数据平台,数据“入算出”的逻辑还是没有变,主要还是关注数据如何:

“入”(数据怎么传输进平台,怎么存储)

“算”(数据怎么计算处理)

“出”(数据怎么输出应用展示)

只是在大数据时代,数据变得更加庞大和复杂了,数据处理的方法更加丰富,数据处理理念也有了新的发展和变化。正是这些变化,传统的(关系型数据库+小型机+SAN)在面对高速增长的数据和更多维度的计算的时候,扩展瓶颈明显存在问题。

原来传统的数据集市方案供应商,通过按数据量,CPU核数收费的方式,基本上让用户自己先把大数据变小数据,再进行计算。不过在互联网的时代,数据的爆发,像传统金融行业那样变小数据,解决不了很多场景问题,于是开源社区的大数据平台各层次、模块的组件技术都发展的如火如荼,下图是一些常见大数据平台开源组件的示例。

不过开源组件看上去啥都有,直接拿来用就好了,为何我们还要设立大数据平台团队,投入大力气去做平台的集成建设完善?

所谓天下没有免费的午餐,各种开源组件是在解决某个特定领域问题方面具备了强大的基础能力,但且不提每个组件版本几十数百的Bug,在如下图的安全、易用、可靠、可管理等等方面,原生开源组件都有着各种缺陷和问题,需要做各方面的完善增强,集成整合,才能构建形成一个企业级,乃至金融级的大数据平台,就更别提针对特定用户场景需求的支持和覆盖了。

想要在一个工具界面里编辑运行多种语言对接多种计算存储引擎?对不起没有。想要做到计算层应用接口服务的分布式可扩展、负载均衡和资源权限管控?对不起不支持。想要实现把数据从SAS导到Hadoop?对不起您还是自己开发吧。生产平台服务挂了起不来了?对不起请先提个issue也许明天会有人看到的。

这也正是大数据平台团队的价值与使命所在,在传统金融数据软件供应商无法解决互联网银行的计算需求下,要实现像互联网公司一样可以灵活扩容的处理数据,自主可控,又解决金融的各种非功能性要求,把原来所有在传统小型机上金融级数据应用都迁移到自主平台上,保障大数据平台高效稳定运营,构建金融级大数据平台能力,应对大数据4V挑战,实现数据价值。

03

我们的优势

我行大数据平台BDP,当前已经初步建成了,由数据接入、数据分发、计算、存储四大层次组成的,关注底层数据传输计算存储能力构建的基础平台;及由平台工具、数据工具、应用工具三大层次组成的,关注用户各类功能工具需求实现的功能平台。形成了较为完整的大数据平台技术体系,提供一站式的丰富数据平台组件及平台运营支撑能力。

在基础平台方面,依然沿着我行的科技的架构基本法主线,秉承自主可控的原则,依托开源社区力量构建金融级可靠服务,主要基于Apache等开源社区的各种开源组件,构建基础平台各层次能力。并在开源版本基础上小范围做加法和bug修复,核心去解决实际应用中遇到的安全、性能、可管理性等问题,保持对开源社区版本升级更新的透明兼容。

通过对基础平台各个组件的集成,我们对接了分布式银行核心业务系统,并把整个基础平台的高可用,权限分离,数据安全,银行业务场景的支持等方面进行了企业级金融要求的能力提升。

在功能平台方面,我们在银行金融需求的驱动下,以自研为主结合开源社区优秀产品实践经验,构建功能平台:应用工具、数据工具、平台工具三个层次能力。通过类SAS的图形化IDE环境,解决SAS自身软件在数据量大,对硬件过度依赖的瓶颈。并且引入多编程语言,机器学习能力支持,给业务数据分析团队更厉害的武器。通过自研批量脱敏工具,解决在分析环境中海量数据的数据安全保护问题。通过WeDataMap,解决了所有科技团队一直希望解决的数据地图和数据血缘关系的问题,这在金融业务系统的数据治理中,是核心关键的一环。跨集群的准实时Transport,支持了不同场景应用等级的多集群备份和数据同步问题。

总结来说,我们是有底气说在金融行业中,BDP已经是非常领先的大数据能力平台:

1、平台自主可控,有核心源码,可以自己修改Bug;

2、平台集成替换了金融行业最常用的SAS软件,满足风控和统计部门的需求。因为我们处理的数据量已经超越了SAS软件在通用服务器上所支持的上限;

3、银行的各种监管报表,经营分析报表,分析集市,全面都产生于我们的平台,这在一般的金融机构,是外部专业供应商来通过特殊服务器支持的。主要是我们的数据又已经超出供应商的解决方案。

4、我们银行的数据存储和处理能力,绝大多数由2个类型来覆盖:单台标准物理PC Server 支持的关系型数据库计算能力和大数据平台,所以平台已经不仅仅在提供离线分析的支持,很多在线交易的依赖,也有平台在后面的实时数据服务的支持。这需要对高可用有足够的信心和技术方案的保障。

04

我们的发展方向

大数据平台在建设上有自主可控的原则,但是在方向上,和银行的愿景是一致的——科技普惠连接。我们所有的ABCD的能力,都是在向Enabler发展。所以,结合目前BDP所处的位置,我们规划了如下几个阶段:

把BDP更加完整的进行产品化,并且随着我行金融产品的丰富,金融场景的丰富,提供更加丰富的平台产品能力,这是我们的第一步。这里面的重点,是我们相信未来的金融业务的数据量,随着更加普惠,更加场景结合,数据量会越来越膨胀,而且金融的交易,也越来越依赖大数据的计算,OLTP和OLAP的界限会逐步模糊。作为金融的大数据平台,如何更强大的支持在线交易,是我们产品的重点方向。

赋能是我们使命,通过赋能来连接,所以把所有的能力尽快可以落地云计算上,真正帮助其他合作伙伴也能具备平台的能力,才能帮助合作伙伴降低成本,提高效率,共同服务更多的客户。同样我们也看到了金融的各个领域,从服务机构到监管机构,已经开始面临了众多的大数据处理问题。

智能化回归到“在云上,利用人工智能处理大数据”这样的目标。未来的大数据平台,绝对不仅仅是替换SAS、替代TeraData这么简单,越来越多的数据应用,是基于人工智能来实现的。

我们划分的三个阶段,也同样是三个方面,会是我们平台日后努力的方向。今天立下Flag在这里,后面大家就逐步看我们对技术和体验有执着追求的大数据平台团队的燃烧和成果吧!

后记

其实帅哥还有好几页的“怎么去”的内容,我们仔细考虑了一下,觉得还是太有核心价值了,于是就不放在这里。大家了解到我们的愿景,看到我们的现状,我们还是在前进的道路上,持续给大家通报取得的成绩就好。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180510G1LWSA00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券