首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Presto介绍及常用查询优化方法总结

Presto提供了一套Connector接口,用于读取元信息和原始数据。 Presto 内置有多种数据源,如 Hive、MySQL、Kudu、Kafka 等。...小心使用内存和数据结构 GC控制 无容错 2、Presto查询优化 2.1 存储优化 ① 合理设置分区 与Hive类似,Presto会根据元信息读取分区数据,合理的分区能减少Presto数据读取量,提升查询性能...② 使用列式存储 Presto对ORC文件读取做了特定优化,因此在Hive中创建Presto使用的表时,建议采用ORC格式存储。相对于Parquet,Presto对ORC支持更好。...⑤ 用regexp_like代替多个like语句 Presto查询优化器没有对多个like语句进行优化,使用regexp_like对性能有较大提升 [GOOD] SELECT ......FROM access WHERE regexp_like(method, 'GET|POST|PUT|DELETE') ​ [BAD] SELECT ...

2.4K00

Presto系列 | Presto基本介绍

233酱准备不定时持续更新这个系列,本文主要从Presto的使用举例,Presto的应用场景、Presto的基本概念三个部分来初步介绍Presto。...Presto的使用举例 比如说,你想对存储在不同数据源中的数据,如HDFS、Mysql、HBase等通过一个SQL做查询分析,那么只需要把每一个数据源当成是Presto的Connector,对应实现Presto...Presto跑批的限制原因: ? Presto跑批的条件: ? 所以他们提供了Presto on Spark方案,这样做的好处是可以统一用户使用的SQL方言差异,UDF差异。 ?...Presto的基本概念 前面主要谈了Presto的使用场景,下面简要从 Presto的架构和基本术语上介绍PrestoPresto架构 Presto的架构图如下: ?...Coordinator Presto中的Coordinator节点负责解析SQL语句,生成并优化物理执行计划,管理Presto worker节点。它是Presto运行的“大脑”。

4K40
您找到你想要的搜索结果了吗?
是的
没有找到

Presto介绍与常用查询优化方法

Facebook称Presto的性能比Hive要好上10倍多。2013年Facebook正式宣布开源PrestoPresto架构 ?...使用列式存储 Presto对ORC文件读取做了特定优化,因此在Hive中创建Presto使用的表时,建议采用ORC格式存储。相对于Parquet,Presto对ORC支持更好。...比如使用approx_distinct() 函数比Count(distinct x)有大概2.3%的误差 用regexp_like代替多个like语句: Presto查询优化器没有对多个like语句进行优化...,使用regexp_like对性能有较大提升 使用Join语句时将大表放在左边: Presto中join的默认算法是broadcast join,即将join左边的表分割到多个worker,然后将join...Impala性能稍领先于presto,但是presto在数据源支持上非常丰富,presto对SQL的支持上也更多一些。

3.3K50

大数据Presto(五):Presto优化与Impala对比

Presto优化与Impala对比一、Presto优化1、​​​​​​​​​​​​​​数据存储一般Presto与Hive整合使用,针对这种使用情况有如下几点优化建议:合理设置分区合理设置分区在读取数据时可以针对分区数据读取...,可以减少Presto数据读取量,提升查询性能。...使用列式存储Presto对ORC文件读取做了特定优化,因此在Hive中创建Presto使用的表时,建议采用ORC格式存储。相对于Parquet,Presto对ORC支持更好。...使用Join语句时将大表放在左边使用Join语句时将大表放在左边Presto中join的默认算法是broadcast join,即将join左边的表分割到多个worker,然后将join右边的表数据整个复制一份发送到每个...二、​​​​​​​​​​​​​​Presto与Impala对比Impala性能比Presto相对来说要快一些,两者都对内存消耗比较大,虽然Impala速度快但是Presto支持的数据源丰富。

1.5K61

Presto统计信息

表统计 Presto支持基于统计的查询优化。为了使查询能够利用这些优化,Presto必须具有该查询中表的统计信息。 表统计信息通过连接器提供给查询计划者。...Presto会根据查询中的过滤谓词,尝试选择由最少数量的分区组成的table layout。...可以使用SHOW STATS for命令通过Presto SQL界面显示表统计信息。 ?...每个计划片段均由单个或多个Presto节点执行。片段分离代表Presto节点之间的数据交换。片段类型指定Presto节点如何执行片段以及片段之间的数据分配方式. SINGLE 片段在单个节点上执行....使用VERBOSE选项时,将提供更详细的信息和低级别的统计信息;要了解这些内容,需要了解Presto内部和实现细节。 可以看到每个阶段花费的CPU时间以及该阶段中每个计划节点的相对成本。

2.5K30

构建一个优秀的SQL及优化方案

使用近似聚合函数---大部分查询引擎或者分布式数据库(Presto, ClickHouse, Druid等)有一些近似聚合函数,对于允许有少量误差的查询场景,使用这些函数对查询性能有大幅提升。...避免使用多LIKE语句---如果是使用的Presto的话,一定要使用regexp_like,这是因为Presto查询优化器没有对多个like语句进行优化,使用regexp_like对性能有较大提升正确的...FROM tableA WHERE regexp_like(method, 'GET|POST|PUT|DELETE')错误的SQL:SELECT ......LIKE '%POST%' OR method LIKE '%PUT%' OR method LIKE '%DELETE%'JOIN避免大表再右侧---JOIN的默认算法是broadcast join(Presto...FROM tableL JOIN l tableS s ON l.id = s.id核心点就是使用分布式JOIN,Presto的这种配置类型会将左表和右表同时以join key的hash value为分区字段进行分区

77750

Presto SPI概述

连接器是Presto中所有查询数据的来源:它们支持Presto可用的每个目录 SPI代码可在根目录的presto-spi目录中找到。...此类的名称是通过标准Java ServiceLoader接口提供给Presto的:类路径包含META-INF/services目录中名为com.facebook.presto.spi.Plugin的资源文件...该文件的内容是一行,列出了插件类的名称. com.facebook.presto.example.ExamplePlugin 对于Presto源代码中包含的内置插件,只要插件的pom.xml文件包含以下行...,就会创建此资源文件 presto-plugin 插件 对于希望了解Presto SPI的开发人员而言,Plugin接口是一个很好的起点。...例如,getConnectorFactories()方法是一个顶层函数,当Presto准备好创建连接器实例以支持目录时,Presto会调用该函数来检索ConnectorFactory。

1.5K10
领券