首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大数据OLAP系统(2)——开源组件篇

,SQL 查询; Query Engine:使用开源 Apache Calcite 框架来实现 SQL 解析,可以理解为 SQL 引擎层; Routing:负责将解析 SQL 生成执行计划转换成...Hive 读取原始数据,然后通过一些 MapReduce 或 Spark 计算生成 Htable,最后将数据 load 到 HBase 表中。...SIMD被广泛地应用于文本转换、数据过滤、数据解压和JSON转换场景。相较于单纯地使用CPU,利用寄存器暴力优化也算是一种降维打击了。...这也是Presto性能比Hive快很多倍决定性原因。 与Spark比较: 目标:Presto强调查询,但Spark重点强调计算。 架构:Presto体系结构与MPP SQL引擎非常相似。...数据处理:在spark中,数据需要在进入下一阶段之前完全处理。Presto是流水线式处理模式。只要一个page完成处理,就可以将其发送到下一个task(这种方法大大减少了各种查询端到端响应时间)。

2.2K40

主流大数据OLAP框架对比

这类 sql 固定模式,对响应时间有较高要求。按照架构实现划分,主流 OLAP 引擎主要有下面三类:MPP 架构系统(Presto/Impala/SparkSQL/Drill )。...有人说Spark SQL和Flink SQL属于DAG模型,我们思考后认为,DAG并不算一种单独模型,它只是生成执行计划一种方式。...PrestoSpark SQL有很大相似性,这是它区别于Hive最根本区别。...这里我们给读者留下一个思考题:以Presto为代表MPP模型与Hive为代表MapReduce模型性能差异比较大原因是什么?...Spark)预计算好低层次统计数据Druid不适合用于处理透视维度复杂多变查询场景Druid擅长查询类型比较单一,一些常用SQL(groupby )语句在druid里运行速度一般Druid支持低延时数据插入

69610
您找到你想要的搜索结果了吗?
是的
没有找到

【学习】开源大数据查询分析引擎现状

Hive用于长时间批处理查询分 析,而Impala、Shark、Stinger和Presto用于实时交互式SQL查询,它们给数据分析人员提供了快速实验、验证想法大数据分析工 具。...可以先使用Hive进行数据转换处理,之后使用这四个系统中一个在Hive处理后结果数据集上进行快速数据分析。...2) Impala:Google Dremel开源实现(Apache Drill类似),因为交互式实时计算需求,Cloudera推出了Impala系统,该系统适用于交互式实时处理场景,要求最后产生数据量一定要少...Hive与Impala、Shark、Stinger、Presto在Hadoop中关系 当前主流引擎架构 Hive Hive是基于Hadoop一个数据仓库工具,可以将结构化数据文件映射为一张数据库表...Map-Reduce所具有的优点;但不同于Map-Reduce是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark 能更好地适用于数据挖掘与机器学习需要迭代Map-Reduce

3.1K70

0767-Hive ACID vs. Delta Lake

如果已有的数据文件格式为Parquet,同样方法你只能创建仅支持插入(insert-only)表。 深度分析 3.1 Why Hive ACID?...Hive Metastore用于跟踪不同版本,下图是一张动画示意: ? 3.3 Hive ACID挑战 Hive ACID主要用于使用HadoopHDFS文件系统中。...3.4 Spark实现 如之前提到,我们正在开发使用Spark读取Hive ACID事务表功能,并将这块功能开源,我们想选择一种易于开源设计方法。...在此实现中,们确保事务表继续使用流拆分生成(streaming split generation),利用读数据延迟物化(lazy materialization),并且不会受到Presto原生ORC...这在我们基准测试中带来了不错效果,与读取普通表相比,在读取Hive事务表方面几乎没有表现出任何损失。

1.9K20

大数据生态圈常用组件(二):概括介绍、功能特性、适用场景

大数据存储 Hive hive是基于Hadoop一个数据仓库工具,可以将结构化数据文件映射为数据库表,并提供HiveSql查询功能。...多数据源 Presto不仅可以访问HDFS,也可以操作不同数据源,包括:RDBMS和其他数据源(例如:Hive、Cassandra).一条Presto查询可以将多个数据源数据进行合并,可以跨越整个组织进行分析...速度快 低延迟高并发全内存流水线式计算,比Hive快一个数量级. 准实时计算 基准数据若实时更新,Presto快速完成计算,实现准实时计算场景....种数据源可视化查询工具,同时可以制作报表,分享成果. ad-hoc查询 可接入Presto/Hive/Clickhouse查询工具,快速查询数据,方便快捷....而交互式Python和ScalaShell可以使用Spark集群来验证解决问题方法,而不是像以前一样,需要打包、上传集群、验证

1.4K20

系列 | 漫谈数仓第四篇NO.4 『数据应用』(BI&OLAP)

开源技术选型,MOLAP可选Kylin、Druid,ROLAP可选Presto、impala Presto Presto 是由 Facebook 开源大数据分布式 SQL 查询引擎,基于内存低延迟高并发并行计算...☆ 本身并不存储数据,但是可以接入多种数据源,包括Hive、RDBMS(Mysql、Oracle、Tidb)、Kafka、MongoDB、Redis ☆ 完全支持ANSI SQL标准,用户可以直接使用...☆ SQL on Hadoop:弥补Hive效率性能和灵活性不足,PrestoSpark SQL、Impala有很多异曲同工之处。 presto架构(master+slaver模式): ?...Presto应用场景: ? Druid Druid是一个用于大数据实时查询和分析高容错、高性能开源分布式系统,用于解决如何在大规模数据集下进行快速、交互式查询和分析。...应用场景 实时数据分析是 Apache Druid 最典型使用场景。

2.4K20

数据湖之Iceberg一种开放表格式

所以尽管parquet文件里保存了max和min值可以用于进一步过滤(即谓词下推),但是Hive却无法使用。 3....其上层是对接用于计算SparkPresto和Flink计算引擎,并为其提供灵活可插拔性。 自下而上元数据 那么Iceberg是如何组织数据与元数据呢?...如下图所示,每个清单文件追踪多个数据文件,这样优点是减少了元数据小文件生成,同时可以允许跳过整个清单文件以及其关联数据文件。...综上,每次进行数据增删改都会创建一系列Data file 或 Delete file数据文件, 同时会生成多个追踪和记录每个数据文件manifest file清单文件,每个清单文件中可能会记录多个数据文件统计信息...而每次操作都会重新复制一份metadata.json 数据文件,文件汇总了所有快照文件信息,同时在文件中追加写入最新生成快照文件。

1.2K10

系列 | 漫谈数仓第四篇NO.4 『数据应用』(BI&OLAP)

开源技术选型,MOLAP可选Kylin、Druid,ROLAP可选Presto、impala Presto Presto 是由 Facebook 开源大数据分布式 SQL 查询引擎,基于内存低延迟高并发并行计算...☆ 本身并不存储数据,但是可以接入多种数据源,包括Hive、RDBMS(Mysql、Oracle、Tidb)、Kafka、MongoDB、Redis ☆ 完全支持ANSI SQL标准,用户可以直接使用...☆ SQL on Hadoop:弥补Hive效率性能和灵活性不足,PrestoSpark SQL、Impala有很多异曲同工之处。 presto架构(master+slaver模式): ?...Presto应用场景: ? Druid Druid是一个用于大数据实时查询和分析高容错、高性能开源分布式系统,用于解决如何在大规模数据集下进行快速、交互式查询和分析。...应用场景 实时数据分析是 Apache Druid 最典型使用场景。

2.2K30

主流 OLAP 引擎介绍 - OLAP极简教程

ROLAP典型代表是:Presto,Impala,GreenPlum,Clickhouse,Elasticsearch,HiveSpark SQL,Flink SQL。...这类 sql 固定模式,对响应时间有较高要求。 按照架构实现划分,主流 OLAP 引擎主要有下面三类: MPP 架构系统(Presto/Impala/SparkSQL/Drill )。...如果说宽泛一点,Presto、Impala、Clickhouse、Spark SQL、Flink SQL这些都算。...有人说Spark SQL和Flink SQL属于DAG模型,我们思考后认为,DAG并不算一种单独模型,它只是生成执行计划一种方式。...:时间戳、维度列、指标列 Druid不支持多表连接 Druid中数据一般是使用其他计算框架(Spark)预计算好低层次统计数据 Druid不适合用于处理透视维度复杂多变查询场景 Druid擅长查询类型比较单一

7.2K21

如何选择满足需求SQL on HadoopSpark系统

Hiveon Spark目前主要推动者是Cloudera,可以认为是Hive社区这边搞Hive on Spark”。刚刚release了第一个使用版本,目前不能用于生产环境。...Hive on Spark既能利用到现在广泛使用Hive前端,又能利用到广泛使用Spark作为后端执行引擎。对于现在既部署了Hive,又部署了Spark公司来说,节省了运维成本。 ?...2,无论后端执行引擎是MapReduce也好,Tez也好,Spark也好,整个HiveSQL解析、生成执行计划、执行计划优化过程都是非常类似的。...目前Presto主要使用者还是互联网公司,像Facebook,NetflixPresto代码用了Dependency Injection, 比较难理解和debug。...另外还有一些系统,像Apache Drill,Apache Tajo,都是非常小众系统了。 总的来说,目前来看Hive依然是批处理/ETL 类应用首选。

1.2K91

大数据生态圈到底是一个什么概念?

你可以通过引用一个文件路径获取存储在许多台机器上数据文件。作为一个使用者,你完全不用去计较文件具体存储位置,这个文件系统会为你搞定一切。...你无法忍受等待折磨,只能跟帅帅工程师蝈蝈说,快,快,再快一点! 于是Impala,PrestoDrill诞生了(当然还有无数非著名交互SQL引擎,就不一一列举了)。...这些系统让用户更快速地处理SQL任务,牺牲了通用性稳定性特性。如果说MapReduce是大砍刀,砍啥都不怕,那上面三个就是剔骨刀,灵巧锋利,但是不能搞太大太硬东西。...底层HDFS,上面跑MapReduce/Tez/Spark,在上面跑Hive,Pig。或者HDFS上直接跑Impala,DrillPresto。这解决了中低速数据处理要求。...他是什么意思呢,假如你有一堆键值,你就能通过某种方式快速获得键值背后一大堆数据。就好像你去银行插入银行卡就能取到钱一样。

60780

全球100款大数据工具汇总

33 Presto 是一个开源分布式SQL查询引擎,适用于交互式分析查询,可对250PB以上数据进行快速地交互式分析。...Presto设计和编写是为了解决像Facebook这样规模商业数据仓库交互式分析和处理速度问题。Facebook称Presto性能比诸如Hive和MapReduce要好上10倍有多。...34 Drill 于2012年8月份由Apache推出,让用户可以使用基于SQL查询,查询Hadoop、NoSQL数据库和云存储服务。...某些测试下,Stinger能提升10倍左右性能,同时会让Hive支持更多SQL。...Elasticsearch是用Java开发,并作为Apache许可条款下开放源码发布,是当前流行企业级搜索引擎。设计用于云计算中,能够达到实时搜索、稳定、可靠、快速、安装使用方便。

1.3K70

全球100款大数据工具汇总(前50款)

33 Presto 是一个开源分布式SQL查询引擎,适用于交互式分析查询,可对250PB以上数据进行快速地交互式分析。...Presto设计和编写是为了解决像Facebook这样规模商业数据仓库交互式分析和处理速度问题。Facebook称Presto性能比诸如Hive和MapReduce要好上10倍有多。...34 Drill 于2012年8月份由Apache推出,让用户可以使用基于SQL查询,查询Hadoop、NoSQL数据库和云存储服务。...某些测试下,Stinger能提升10倍左右性能,同时会让Hive支持更多SQL。...Elasticsearch是用Java开发,并作为Apache许可条款下开放源码发布,是当前流行企业级搜索引擎。设计用于云计算中,能够达到实时搜索、稳定、可靠、快速、安装使用方便。

74730

盘点大数据生态圈,那些繁花似锦开源项目

然而,受限于资源粒度控制和隔离性问题,Mesos同样备受瞩目,并在一些拥有深厚技术资本公司得以使用,比如Apple、Twitter。...Spark出自伯克利AMPLab之手,基于Scala实现,从开源至今已吸引了越来越多企业落地使用,仅国内比较知名大规模部署就有百度、阿里、腾讯。...即席查询 即席查询当下比较受关注Hive、SparkSQL、Presto、Impala、Drill,其中Hive借助于Hadoop东风,已然在生产环境得到广泛使用。...在Hive之外,关注度最高无疑是Spark SQL。Impala出自知名大数据创业公司Cloudera,在沉寂了一段时间后,当下亦有了复苏迹象。...Presto来自Facebook,类似于Impala一个即席查询工具,在该公司内部得到广泛使用,而国内也在一些知名公司得到部署,比如美团。

69050

大数据生态圈到底是一个什么概念?和我们有关系吗?

你可以通过引用一个文件路径获取存储在许多台机器上数据文件。作为一个使用者,你完全不用去计较文件具体存储位置,这个文件系统会为你搞定一切。...你无法忍受等待折磨,只能跟帅帅工程师蝈蝈说,快,快,再快一点! 于是Impala,PrestoDrill诞生了(当然还有无数非著名交互SQL引擎,就不一一列举了)。...这些系统让用户更快速地处理SQL任务,牺牲了通用性稳定性特性。如果说MapReduce是大砍刀,砍啥都不怕,那上面三个就是剔骨刀,灵巧锋利,但是不能搞太大太硬东西。...底层HDFS,上面跑MapReduce/Tez/Spark,在上面跑Hive,Pig。或者HDFS上直接跑Impala,DrillPresto。这解决了中低速数据处理要求。 如何更高速处理?...他是什么意思呢,假如你有一堆键值,你就能通过某种方式快速获得键值背后一大堆数据。就好像你去银行插入银行卡就能取到钱一样。

73100

你需要不是实时数仓 | 你需要是一款强大OLAP数据库(下)

一个典型Hawq集群组件如下: ? ? 网络上有人对Hawq与Hive查询性能进行了对比测试,总体来看,使用Hawq内部表比Hive多(4-50倍)。...Presto 是由 Facebook 开源大数据分布式 SQL 查询引擎,适用于交互式分析查询,可支持众多数据源,包括 HDFS,RDBMS,KAFKA ,而且提供了非常友好接口开发数据源连接器...PrestoSpark SQL有很大相似性,这是它区别于Hive最根本区别。...,十分适合用于对按时间进行统计分析场景 Druid把数据列分为三类:时间戳、维度列、指标列 Druid不支持多表连接 Druid中数据一般是使用其他计算框架(Spark)预计算好低层次统计数据...,Hawq,Impala - 基于SQL on Hadoop PrestoSpark SQL类似 - 基于内存解析SQL生成执行计划 Kylin - 用空间换时间,预计算 Druid - 一个支持数据实时摄入

1.6K20

客快物流大数据项目(八十五):实时OLAP分析需求

OLAP引擎包含不限于:HivePresto、Kylin、Impala、Sparksql、Druid、Clickhouse、Greeplum,可以说目前没有一个引擎能在数据量,灵活程度和性能上做到完美...SparkSQL作为Spark生态一员继续发展,而不再受限于Hive,只是兼容Hive。...PrestoPresto 是由 Facebook 开源大数据分布式 SQL 查询引擎,适用于交互式分析查询,可支持众多数据源,包括 HDFS,RDBMS,KAFKA ,而且提供了非常友好接口开发数据源连接器...Presto由于是基于内存,而hive是在磁盘上读写,因此prestohive快很多,但是由于是基于内存计算当多张大表关联操作时易引起内存溢出错误。...和Spark SQL类似 - 基于内存解析SQL生成执行计划Kylin - 用空间换时间,预计算Druid - 一个支持数据实时摄入ClickHouse - OLAP领域Hbase,单表查询性能优势巨大

87071

盘点大数据生态圈,那些繁花似锦开源项目

然而,受限于资源粒度控制和隔离性问题,Mesos同样备受瞩目,并在一些拥有深厚技术资本公司得以使用,比如Apple、Twitter。...Spark出自伯克利AMPLab之手,基于Scala实现,从开源至今已吸引了越来越多企业落地使用,仅国内比较知名大规模部署就有百度、阿里、腾讯。...即席查询 即席查询当下比较受关注Hive、SparkSQL、Presto、Impala、Drill,其中Hive借助于Hadoop东风,已然在生产环境得到广泛使用。...在Hive之外,关注度最高无疑是Spark SQL。Impala出自知名大数据创业公司Cloudera,在沉寂了一段时间后,当下亦有了复苏迹象。...Presto来自Facebook,类似于Impala一个即席查询工具,在该公司内部得到广泛使用,而国内也在一些知名公司得到部署,比如美团。

863110
领券