【演讲实录】银行PB级别海量非结构化数据管理实践

近期,巨杉数据库的技术总监郝大为受邀在第七届数据技术嘉年华中做了“银行PB级别海量非结构化数据管理实践”为主题的演讲,分享了巨杉数据库有关金融行业数据库管理以及金融级数据库技术与应用的一些实践及思考。

新一代金融级数据管理需求

数据爆炸:数据呈现急剧增长,对数据存储的数据量,并发性和响应速度都提出了更高要求。以大型商业银行为例,通常它们拥有成百上千个业务系统以及上亿用户的海量数据,且数量呈现指数级增长,从TB级别增加到PB级别,未来很快就会增加至EB级别,这些都需要有效的管理以及实现实时访问。

数据融合:不仅是金融行业,在过去,各个业务的数据都是以孤岛的形式独立存在,而我们需要的是跨业务、跨业务系统的数据统一管理和维护,甚至需要统一架构支撑下的数据沟通交流。打破数据孤岛就成为金融行业的切实需求。

非结构化数据:非结构数据在金融行业数据量上的占比逐渐占绝对优势的一种数据存在的形式。图像、图片、语音、有格式的文档都是非结构化数据,非结构化数据量每年增长80%左右。数据量的快速增加,再加上对银行业两地三中心数据安全的要求,对非结构化数据的存储和管理的要求就提高了。这也是金融业的行业需求。

随着银行远程开户、柜面无纸化、双录、会计档案管理等系统的建立和升级,影像系统除了满足商业银行在线业务系统不断提升的访问性能需求外,还需要提供作为在线系统的高可用、灾备甚至“双活”能力,以保证系统数据绝对安全。

金融级数据库核心能力

面对金融行业的新需求,新一代金融级数据库需要在分布式架构、非结构化数据管理、多模式数据处理、标准化数据访问、数据可靠性、与混合负载等几个角度对传统数据库架构进行重新定义。

1)分布式架构

由于传统数据库的单点架构无法满足新型金融科技应用对数据量与并发能力的需求,新一代金融级数据库必须采用分布式架构来应对该类挑战。分布式架构,将海量数据均匀存储在多台物理设备中,以避免单一设备所造成的瓶颈。同时,分布式数据库的灵活扩展能力,为金融业务增长提供了弹性的容量与性能支持,在大规模数据应用中具有明显的技术优势。

我们以巨杉分布式架构为例,无论是数据还是文件系统等元数据都要进行分布式存储,同时元数据的管理也应该是分布式、高可用、没有单点故障的。分布式架构必须具备弹性拓展和性能线性增长,同事分布式架构可以有效降低TCO、总体应用成本。分布式架构有很好的管理能力,可以降低开发运维的成本。

2)多模式数据管理---非结构化数据管理

如今,在金融业务“互联网化”和“零售化”的趋势下,金融机构开始向用户提供更多个性化、定制化的产品与服务。特别是非结构化数据,增长最为迅猛。

通常来说,结构化数据特指表单类型的数据存储结构,典型应用包括银行核心交易等传统业务;而半结构化数据则在用户画像、物联网设备日志采集、应用点击流分析等场景中得到大规模使用;非结构化数据则对应着海量的的图片、视频、和文档处理等业务,在金融科技的发展下增长迅速。

为了实现金融业务数据的统一管理和数据融合,新型数据库需要具备多模式(Multi-Model)数据管理和存储的能力,以满足应用程序对于结构化、半结构化、非结构化数据的管理需求。

多模式数据管理能力,使得金融级数据库能够进行跨部门、跨业务的数据统一存储与管理,实现多业务数据融合,支撑多样化的金融服务。

3)标准数据访问与混合负载

根据Gartner的最新定义,混合负载(HTAP Hybrid Transactional/Analytical Processing)在保留原有在线交易功能的同时,也强调了数据库原生计算分析的能力。支持混合负载的数据库能够避免在传统架构中,在线与离线数据库之间大量的数据交互,同时也能够针对最新的业务数据进行实时统计分析。

为了避免在线实时读写与批处理作业之间的资源干扰,混合负载型数据库通常使用读写分离或内存处理技术实现。一般来说,分布式数据库的多副本架构天然支持读写分离技术,而基于传统架构的数据库往往采用内存处理技术进行实现。

4)数据安全

伴随着在企业内部价值的不断提升,数据已经成为了金融企业的生命线与核心资产。作为承载着企业关键数据的数据库,其安全性、可靠性、稳定性一直是金融级数据库的核心价值。

数据安全领域重要的一个概念是容灾能力,银监会就要求银行业要符合两地三中心的要求。这其实是一个数据多副本的思想,任何一个副本丢失我们还有其他副本可以支撑数据管理的需求,数据服务的需求。这对于金融企业显得尤其重要。

金融级数据库应用案例

1)银行业分布式影像平台

银行业影像平台案例,是在某大型股份制银行实施的,该平台底层基于巨杉数据库,目前已经投入生产。

巨杉数据库适合于结构化、非结构化、半结构化数据存储。在应用层面提供对外的影像文件管理服务能力,有两台或者更多台具备负载均衡和高可用能力的应用服务器,服务器上对接的是银行内部业务系统,当需要查非结构化数据时就可以接入影像管理平台,巨杉数据库支撑的是PB级的数据存储,同时支持了高可用。

此外,巨杉数据库支持多索引,毫秒级别实时数据访问,这么大数据量下依然提供这么大的访问性能,总体应用成本跟过去影像平台对比可以降低三分之一,这是整个巨杉数据库分布式的架构决定的。

2)证券超高并发数据访问

证券交易主要特点是频度高,每天可能有上亿条交易数据。证券交易场景一般都是结构化数据,大量结构化数据进入系统提高高并发的结构能力。

这个系统可以帮助用户查询证券交易的所有历史交易明细,并且查询的返回速度依然很高,在海量数据情况下可能做到百毫秒以内的查询范围。

实现结果:

  • 平均每日超过2亿条记录写入
  • 高峰时段,同时有超过百亿级别的数据需要被检索、调用
  • 系统保存3年内所有交易和持有数据
  • 峰值并发量超过10000
  • 高峰时段,查询返回时间小于100ms

3)银行海量数据管理

关于银行海量数据的管理平台,实际上是银行多业务系统的结构化数据组成一个统一的查询平台,用户可以通过这个平台去查询业务,而不再需要查询原有业务系统,这样原有业务系统数据库的负载就降下来了。原有业务系统数据库只保存需要在线交易的那部分数据,其他的数据全部储存在巨杉数据库。

SequoiaDB利用其横向扩展、支持标准SQL以及双引擎的机制,能够在存储海量历史数据的同时对外提供在线查询与分析能力,这就使得银行能将传统的离线数据做到近线化,将冷数据有效地使用起来。

巨杉数据库的多家银行客户使用SequoiaDB提供高并发的数据查询和访问功能,使银行客户能够在柜台、网银、手机银行上随时随地查询开户以来所有的交易历史。同时,该平台可以提供司法查询的能力,使银行IT部门不需要为了复杂多变的查询请求,在历史带库与数据库之间疲于奔命。

4)其他案例

在政府行业,巨杉数据库可以对电子证件进行集中存储和查询,可以帮助行政服务大厅或者其他政府部门查询信息,提升工作的效率。

在交通领域,大量摄像头实时采集的图片和视频数据需要存储,并且现在还增加了实时处理分析套牌违规等行为,这背后也需要强大的数据存储管理查询或者存储引擎支撑海量的数据,巨杉数据库能够有效满足这种需求。

原文发布于微信公众号 - 数据和云(OraNews)

原文发表时间:2017-11-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SDNLAB

现代数据中心标准COTS服务器的演进

数据中心内的x86商用成品(COTS)服务器的标准化已经经过了很长时间,因为该架构提供了多功能、低成本、易于集成、更有效地维护和管理配置文件,总而言之,其成本低...

2924
来自专栏云计算D1net

从云计算到边缘:驯服应用供应链的复杂性

为了满足数字世界中快速变化的客户需求,IT部门必须帮助他们的组织保持行业领先,并保持在预算范围内。例如,为了使IT能够提高敏捷性,并提高服务和创新的交付速度,他...

670
来自专栏Java架构

十年Java架构经验总结:这几点尤为关键!一、阅读源码二、分布式架构三、微服务四、性能优化五、并发编程

蓦然回首自己做开发已经十年了,这十年中我获得了很多,技术能力、培训、出国、大公司的经历,还有很多很好的朋友。

751

工业物联网需要边缘的五个原因

随着我们生活和工作的空间开始变得对网络有所了解并对其环境中发生的事件做出反应,工业物联网正迅速成为事实。在这些空间中,不同复杂度的“事物”包括测量温度值的传感器...

3169
来自专栏大数据

大数据驱动的未来网络:体系架构与应用场景

来源:学术plus(caeit-e) 摘 要:当前网络已经发展了40余年,存在许多问题亟待解决。随着美国产业互联网、德国工业4.0以及“互联网+”等战略的提出,...

1997
来自专栏京东技术

助力存储成本优化,京东、陌陌、TalkingData共同探讨Alluxio的应用

许多大型企业都有结构化大数据,围绕大数据,大型互联网企业和初创企业“百家争鸣”,各家同质应用竞争日益激烈,服务范围涵盖大数据应用、硬件、技术等,随着数据爆炸性增...

722
来自专栏Java架构

阿里、百度、京东等一线互联网架构师都在用的技术体系

可以说,Java是现阶段中国互联网公司中,覆盖度最广的研发语言,掌握了Java技术体系,不管在成熟的大公司,快速发展的公司,还是创业阶段的公司,都能有立足之地。

623
来自专栏Danny的专栏

软件工程初识

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/huyuyang6688/article/...

722
来自专栏大数据和云计算技术

超融合概述

现在是数据时代,大数据技术非常火。大数据的基石是基础架构,也可以说是云计算。超融合是云计算的一个细分场景。在这个以大数据和云计算为主题的公众号中来点超融...

4095
来自专栏云加新鲜事儿

刘金明:腾讯云 EB 级对象存储架构深度剖析及实践

腾讯云存储业务中心副总监-刘金明,在云+未来峰会上做了主题为《腾讯云 EB 级对象存储架构深度剖析及实践》的分享,以下内容整理自演讲。

3125

扫码关注云+社区