大数据时代海量冷数据如何存储

2017.12.11 十月廿四•周一

数智化·核心

第2篇

大数据时代海量冷数据如何存储

方案概述

基于Hadoop技术构建基于大数据的历史数据平台,实现海量历史数据的存储、处理、建模、查询、分析。帮助银行企业制定完善的历史数据归档管理机制,制定统一的历史数据保存策略,构建全行集中统一的历史数据处理平台。

全方位覆盖银行企业内外部、多样异构的海量数据存储;提供历史数据快速检索查询功能;提高公检法、非现场审计等应用的查询效率;支持长时间跨度历史数据的高性能查询;最终实现“核心减负”。

系统截图

司法查询

灵活查询

批量下载

服务监控

日志管理

参数维护

自动脚本创建

方案总体介绍

近年来,银行业务发展对信息科技的依赖程度日益增加,为满足不断增长的业务规模与不断发展变化的业务需求,各商业银行不断提升业务系统的建设与改造力度,逐步实现关键业务数据的总行集中管理。但数据统一处理也造成了数据量的急剧膨胀,给数据的管理和维护带来诸多问题。

文思海辉基于业界先进的Hadoop技术框架,利用其分布式存储和计算能力,构建了大数据环境下的新一代海量历史数据存储平台。通过历史数据平台的建设,可以为业务人员提供更长时间段的历史数据在线服务;无缝对接上层多种主流的数据挖掘、数据分析及可视化产品,如:SAS、R Studio、Tableau、SmartBI、D3JS等,深度开发历史数据,创造全新的商业价值。

历史数据平台总体架构:

平台提供两类数据服务,包括历史数据查询类服务及历史数据接口类服务。

查询类服务:

以HBASE为存储,以银行内部ESB总线为信息载体,实现柜面终端历史数据查询服务;

以通用JDBC数据驱动,访问HADOOP中的HIVE数据,实现用户通过WEB界面进行人机交互;

以WEB界面发起查询,访问HBASE中的加工结果,将数据查询展示给业务查询人员,并提供分页展示和数据接口下载。

接口类服务:

数据接口服务重点服务于非日常特殊数据接口需求,以及系统测试或系统新上线对历史数据初始化的需求。

系统主要功能:

全量数据存储(实现离线数据全量汇总入库,提供统一格式存储);

统一格式查询(形成统一的数据资源查询接口,支持多种格式数据查询);

模型化数据分析(针对特定业务场景,提炼分析模型,实现预加工、预处理相关全量数据,并输出分析结果)。

关键业务价值:

提供海量数据存储管理服务;

提供跨长时间段数据查询服务;

统一客户体验(统一存储管理、统一数据格式、集中数据服务);

多种查询方式(支持单笔或批量查询);

数据服务低延时、高可用。

创新措施

文思海辉历史数据平台方案,帮助银行企业实现历史数据线上化,提高业务办理效率,提升客户服务质量,满足未来增量交易数据的持续沉淀。该平台方案具有低成本、高效率、易扩展三大特点,有效解决了海量数据存储及利用问题,降低数据存储的整体拥有成本(TcO),提高整体系统性能,提高数据存储灵活性。

自动化数据分级存储技术:

根据数据的重要性、访问频率、保留时间、容量、性能等指标,将数据采取不同的存储方式分别存储在不同性能的存储设备上,通过分级存储管理实现数据客体在存储设备之间的自动迁移。

实现数据分级管理机制:

参考数据分类和数据价值模型,按照数据分类和数据价值,建立数据分级存储管理机制,将业务数据按照数据分类和数据价值级别存储到相应级别的存储设备,实现数据的分级分层存储和管理。

海量数据生命周期管理策略和流程:

通过数据分级机制,建立银行数据存储服务目录,为业务系统和数据提供不同级别的存储服务。

通过存储服务目录和数据分级管理模型的映射,为不同级别的业务数据创建相应的数据生命周期管理策略和流程,实现业务数据生命周期各个阶段在不同级别存储设备间的自动迁移直至回收,并实现业务数据在生命周期的各个阶段的不同级别的存储服务。

两周一篇,不见不散

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20171211G0MQ2M00?refer=cp_1026

扫码关注云+社区