首页
学习
活动
专区
工具
TVP
发布

Presto系列 | Presto基本介绍

233酱准备不定时持续更新这个系列,本文主要从Presto的使用举例,Presto的应用场景、Presto的基本概念三个部分来初步介绍Presto。...Presto的使用举例 比如说,你想对存储在不同数据源中的数据,如HDFS、Mysql、HBase等通过一个SQL做查询分析,那么只需要把每一个数据源当成是Presto的Connector,对应实现Presto...Presto跑批的限制原因: ? Presto跑批的条件: ? 所以他们提供了Presto on Spark方案,这样做的好处是可以统一用户使用的SQL方言差异,UDF差异。 ?...Presto的基本概念 前面主要谈了Presto的使用场景,下面简要从 Presto的架构和基本术语上介绍PrestoPresto架构 Presto的架构图如下: ?...Coordinator Presto中的Coordinator节点负责解析SQL语句,生成并优化物理执行计划,管理Presto worker节点。它是Presto运行的“大脑”。

4K40
您找到你想要的搜索结果了吗?
是的
没有找到

大数据Presto(五):Presto优化与Impala对比

Presto优化与Impala对比一、Presto优化1、​​​​​​​​​​​​​​数据存储一般Presto与Hive整合使用,针对这种使用情况有如下几点优化建议:合理设置分区合理设置分区在读取数据时可以针对分区数据读取...,可以减少Presto数据读取量,提升查询性能。...使用列式存储Presto对ORC文件读取做了特定优化,因此在Hive中创建Presto使用的表时,建议采用ORC格式存储。相对于Parquet,Presto对ORC支持更好。...使用Join语句时将大表放在左边使用Join语句时将大表放在左边Presto中join的默认算法是broadcast join,即将join左边的表分割到多个worker,然后将join右边的表数据整个复制一份发送到每个...二、​​​​​​​​​​​​​​Presto与Impala对比Impala性能比Presto相对来说要快一些,两者都对内存消耗比较大,虽然Impala速度快但是Presto支持的数据源丰富。

1.5K61

Presto统计信息

表统计 Presto支持基于统计的查询优化。为了使查询能够利用这些优化,Presto必须具有该查询中表的统计信息。 表统计信息通过连接器提供给查询计划者。...Presto会根据查询中的过滤谓词,尝试选择由最少数量的分区组成的table layout。...可以使用SHOW STATS for命令通过Presto SQL界面显示表统计信息。 ?...每个计划片段均由单个或多个Presto节点执行。片段分离代表Presto节点之间的数据交换。片段类型指定Presto节点如何执行片段以及片段之间的数据分配方式. SINGLE 片段在单个节点上执行....使用VERBOSE选项时,将提供更详细的信息和低级别的统计信息;要了解这些内容,需要了解Presto内部和实现细节。 可以看到每个阶段花费的CPU时间以及该阶段中每个计划节点的相对成本。

2.4K30

快速学习-Presto优化

第3章 Presto优化 3.1 数据存储 1)合理设置分区 与Hive类似,Presto会根据元信息读取分区数据,合理的分区能减少Presto数据读取量,提升查询性能。...2)使用列式存储 Presto对ORC文件读取做了特定优化,因此在Hive中创建Presto使用的表时,建议采用ORC格式存储。相对于Parquet,Presto对ORC支持更好。...GOOD]: SELECT * FROM tbl ORDER BY time LIMIT 100 [BAD]: SELECT * FROM tbl ORDER BY time 5)使用近似聚合函数 Presto...OR method LIKE '%POST%' OR method LIKE '%PUT%' OR method LIKE '%DELETE%' 7)使用Join语句时将大表放在左边 Presto...3.4 注意事项 ORC和Parquet都支持列式存储,但是ORC对Presto支持更好(Parquet对Impala支持更好) 对于列式存储而言,存储文件为二进制的,对于经常增删字段的表,建议不要使用列式存储

1.8K20

Presto SPI概述

连接器是Presto中所有查询数据的来源:它们支持Presto可用的每个目录 SPI代码可在根目录的presto-spi目录中找到。...此类的名称是通过标准Java ServiceLoader接口提供给Presto的:类路径包含META-INF/services目录中名为com.facebook.presto.spi.Plugin的资源文件...该文件的内容是一行,列出了插件类的名称. com.facebook.presto.example.ExamplePlugin 对于Presto源代码中包含的内置插件,只要插件的pom.xml文件包含以下行...,就会创建此资源文件 presto-plugin 插件 对于希望了解Presto SPI的开发人员而言,Plugin接口是一个很好的起点。...例如,getConnectorFactories()方法是一个顶层函数,当Presto准备好创建连接器实例以支持目录时,Presto会调用该函数来检索ConnectorFactory。

1.5K10

为什么要使用Presto

Presto 来解救 Presto 能够解决上面所有问题,并能够带来更多的能力:通过联邦查询查询不同的系统,并行查询,水平集群扩展等等。如下图所示是 Presto 的 logo。...即使 Presto 可以理解并有效执行 SQL,但 Presto 也不是数据库,因为它不包括自己的数据存储系统。...使用 Presto 时,存储和计算是分离的,可以独立扩展。Presto 代表计算层,而底层数据源代表存储层。 这样,Presto 可以根据对访问数据的分析需求来扩展和缩减其计算资源以进行查询处理。...Presto 使用场景 Presto 的灵活性和强大功能让户可以自己决定使用 Presto 的程度。对于一个特定的问题,只能从一个小的用途开始。大多数 Presto 用户都是这样开始的。...Presto 可以帮你解决以上所有问题。你可以在 Presto 中访问所有数据库。你可以使用 Presto 支持的标准 SQL、函数、各种操作符查询不同系统。

2.2K20
领券