首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

快用这个神器打造实时大数据平台,10大功能助力数字化转型

数据的价值和作用在企业内受到了越来越多的关注,每个企业都可以尝试构建自己的大数据平台,积累数据资产。以 Hadoop、Spark 为代表的开源大数据处理框架发展日新月异。如何选择最适合自己的大数据平台组件,打造自己的大数据平台已经成为企业的迫切需求。

亿信华辰作为数据全生命周期产品厂商,数据分析、数据治理产品独领风骚,其在数据存储领域也有一席之地。亿信华辰旗下PetaBase-i是基于开源Hadoop 2.0 平台基础上开发的、具有软件著作权的国产分布式实时大数据平台产品,可为超大规模数据管理提供实时数据采集转换和计算存储的功能,用于支撑准实时数据仓库系统、敏捷BI系统,为用户提供一套灵活易用的大数据平台解决方案。

平台架构

PetaBase-i实时计算平台包含4层:

第一层是采集层,负责从外部数据源中摄取各类数据,包括:结构化和半结构化数据,数据的接入方式既支持通过sqoop等ETL工具跑批也支持通过Flume实时采集。

第二层是数据存储层,负责整个平台的非结构化/半结构化数据和结构化数据存储。其中,hdfs负责存储归档的海量历史数据,使用数仓模型进行组织,形成面向主题的、集成的、稳定的且随时间不断变化的数据集合。为其上计算层提供数据支持。PetaBase-i使用了一种嵌套的列式存储和高效压缩技术,显著降低了存储空间的要求。近实时数据统一存储在kudu中,以兼顾随机查询和实时更新的混合需求。

第三层是计算层,融合了MapReduce、spark、impala等分布式计算框架,提供实时和离线混合计算模型。

第四层是服务层,包括:数据存储、数据ETL、数据检索、实时计算、流数据采集等,为应用层提供计算访问接口和服务。

PetaBase-i整套软件是构建在Hadoop软件栈之上的,具体包括:

Apache Hadoop,提供分布式文件存储系统(即HDFS),PetaBase-i的数据文件存储在HDFS中。支持CSV、RCF、Parquet、Avro、Sequence File等多种数据文件格式;

Apache Zookeeper,提供高可用的集群资源管理、调度;

Apache Hive,原本是数据仓库管理查询工具,在PetaBase-i中,Hive提供元数据存储、管理等功能;

Impala,分布式、高性能、支持SQL的大数据并行查询引擎。主要由数据库目录服务、集群状态服务、查询计划引擎、分布式执行引擎四大服务组件组成。

MapReduce,用于大规模数据的并行运算框架,具有易于编程、良好的扩展性和高容错性等优点,适合PB级以上海量数据的离线处理。

Spark,为大规模数据处理而设计的快速通用的、基于内存的、分布式的计算引擎,包含机器学习(MLib)功能的程序库、Spark Streaming流式计算引擎、Graphx图处理框架,PetaBase-i使用Spark 提供的Spark Streaming 对实时数据进行流式计算。

HBase,是一个分布式的、面向列的NoSQL数据库,主要应用于高并发、海量数据的快速写入和查询场景。

Kudu,一个全新的存储系统,定位于提供在更新更及时的数据上做更快的分析。弥补hdfs存在不支持单条记录级别的update操作,随机读写性能差的不足。

功能特点

1、定位混合计算场景

集成MapReduce、Spark、impala等多种计算框架,利用YARN资源管理做统一管理,可在海量数据集上同时进行离线计算和流式处理。满足高吞吐、大数据量和低时延实时处理等多方面的数据计算要求。

2、实时/离线一体化处理

PetaBase-i借鉴了目前影响最深刻的大数据处理架构Lambda,将变化的数据并行写到批和流处理系统内,将不同的计算逻辑分别在流和批系统中实现,并且在查询阶段合并流和批的计算视图并展示给用户。

3、弹性扩展

PetaBase-i很好的继承了Hadoop可扩展性的优点,随着集群节点数的扩充,其查询并发能力将随节点数增加而增大。而查询的响应时间,也会随着节点数的增多而缩短。

4、高可用和高容错性

PetaBase-i可配置为高可用的部署模式,即架设两台管理节点,一台处于活动状态,别一台处于待命状态。待命主节点实时监听活动主节点,当活动主节点失效时,系统即时将备用主节点切换为活动主节点,达到整个系统高可用的目的。容错性方面,基于HDFS文件数据块多副本分布存储的特性,同一个数据块有多个副本存放到不同的数据节点上,保证某个数据节点失效的情况下,其它数据节点上仍然有可用的数据块。PetaBase-i还提供查询负载均衡功能,可以将查询请求分摊到不同的集群节点上执行,从而使不同的客户端访问不同的集群节点,达到负载均衡的目的。

5、高效的数据压缩与存储

PetaBase-i支持一种嵌套的列式数据存储模型。列式存储和行式存储相比具有以下优势:

可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量。

压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的,可以使用更高效的压缩编码(例如Run Length Encoding和Delta Encoding)进一步节约存储空间。

只读取需要的列,支持向量运算,能够获取更好的扫描性能。

6、高性能分布式计算框架

PetaBase-i使用了与传统并行计算系统不一样的分布式计算架构,具有更优异的计算性能。提交到PetaBase-i的SQL查询由查询计划器进行解析,生成执行计划树,执行计划树由若干计划任务分片节点组成。每个计划分片节点代表一个执行节点以及相关的操作(比如:聚集、数据交换、数据扫描、Join、合并、排序等操作),并被分发到任务分片对应的PetaBase-i数据节点上并行执行。

7、丰富的数据访问接口

PetaBase-i提供多种应用程序接口,包括JDBC、ODBC、CLI、Thrift等。PetaBase-i除了兼容SQL-99标准,还支持大部分SQL-2003标准。PetaBase-i的SQL语法基本同Hive SQL兼容,语法上同其它数据库SQL语法大体一致,其它数据库的从业人员可以平滑的过渡到PetaBase-i上进行数据分析工作。

8、灵活的数据采集方式

PetaBase-i提供了一个产品化的实时流数据集成加工套件。这个工具提供丰富的通信协议接口 ,最大化地简化采集作业,对实时流数据的数据集成和数据加工处理可快速实施,无需写代码,通过可视化配置执行流处理作业。PetaBase-i还提供了JDBC/ODBC接口,能支持几乎所有的通用ETL工具产品。

9、便捷的可视化运维管理

PetaBase-i提供基于Web的控制台界面,以监控仪表盘形式,对PetaBase-i数据库信息、集群CPU、内存、磁盘空间、数据库会话以及节点状态进行实时监控。

PetaBase-i Web控制台提供Hadoop集群及PetaBase-i集群节点管理功能,可以集中的对数据库集群进行整体控制,资源监控,也可以对单个节点进行管理,了解各节点资源使用情况,进行会话管理等。

PetaBase-i Web控制台提供类PL/SQL Developer IDE的数据库管理功能,可以在Web界面上完成在命令行界面进行的大部分操作,还提供一些额外的高级特性,包括建库、建表、SQL查询编辑器、执行计划、导入、导出、数据复制等。

10、超强的查询性能

PetaBase-i架构于Hadoop之上,采用MPP架构,及优化的列存储格式,结合存储分区、分布式缓存等技术,并针对特定SQL和函数进行性能优化,充分利用集群多节点的计算能力和内存,能支持复杂的多表JOIN,总体性能相比Hive有数倍甚至上百倍提升。

11、高度集成的工程化产品

PetaBase-i具有更高的软件集成度,集成了Hadoop生态系统的多种基础软件,无需额外安装。这些集成化的组件和功能,从整体上节省软件开销,降低使用和运维门槛,方便、有效的保证大数据库系统的落地部署,工程化实施。

结语:作为具有创新性的实时大数据平台,PetaBase-i能够帮助各个行业的企业在海量的数据中洞察更多隐藏的商业价值。亿信华辰作为大数据时代的参与者、助力者,会持续在数字化转型的道路上为企业披荆斩棘、保驾护航。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191209A06F3G00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券