首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Presto查询引擎

如果大家正在按照笔者的教程尝试使用大数据组件还是之前有使用过相关的组件,大家会发现一个问题HIVE在负责的查询下调用Mapreduce会很慢,在这个场景下就涌现出很多查询引擎来优化,比如大家熟悉的Spark-SQL...,Impala,kilin已经今天的主角Presto, Presto以速度和极强的扩展性取得了胜利,不仅能够提高对HIVE数据查询速度还能和异构数据库进行关联查询,比如HIVE和Mysql进行关联查询,...local/hadoop-2.7.3/etc/hadoop/core-site.xml,/usr/local/hadoop-2.7.3/etc/hadoop/hdfs-site.xml 关于hive的连接器以下几种可以更具安装的...launcher start -- 后台运行 launcher run --日志运行 launcher stop --停止 2.使用presto-cli查询 cd /usr/local/presto...4 总结 Presto的强大之处不止于此,这里只是简单演示通过Presto来提高对HIve的查询效率,还有更多的功能需要探索,可以参考官网的文档 注:笔者能力有限说的不对的地方希望大家能够指出,也希望多多交流

1.9K50

大数据查询引擎Presto

Presto客户端对查询语句的提交流程: 1、从指定文件、命令行参数或者Cli窗口中获取需要执行的SQL语句 2、将得到的SQL语句组装成一个RESTful请求,发送给Coordinator,并处理返回的...3、Cli 会不停地循环分批读取查询结果并在屏幕进行动态显示,直到查询结果完全显示完毕。...向Presto集群提交一个查询,其整个过程会经历4个阶段: 1、提交查询:客户端向Coordinator提供的RESTful服务提交SQL语句 2、生成查询执行计划:Coordinator根据传递的SQL...语句生成响应的查询执行计划 3、查询调度:Coordinator根据生成的查询执行计划,依次进行Stage和Task调度。...Presto队列是用于控制查询并发量和可接收的SQL数量,可针对用户、提交来源、Session等信息进行个性化配置。

1.4K30
您找到你想要的搜索结果了吗?
是的
没有找到

Presto介绍与常用查询优化方法

,合理的分区能减少Presto数据读取量,提升查询性能。...Order by时使用Limit, 尽量避免ORDER BY: Order by需要扫描数据到单个worker节点进行排序,导致单个worker需要大量内存 使用近似聚合函数: 对于允许少量误差的查询场景...比如使用approx_distinct() 函数比Count(distinct x)大概2.3%的误差 用regexp_like代替多个like语句: Presto查询优化器没有对多个like语句进行优化...使用Rank函数代替row_number函数来获取Top N UNION ALL 代替 UNION :不用去重 使用WITH语句: 查询语句非常复杂或者多层嵌套的子查询,请试着用WITH语句将子查询分离出来...同时由于版本迭代的问题,一段时间Impala对 hadoop某些社区版本并不支持。 ----

3.4K50

Presto之分布式安装查询Hive

工作需要使用Presto,记录下。Presto需要Hive,安装Hive的步骤略,可参考我的这篇博客。    ...Presto是个master-slave结果的查询引擎,所以我们用三台机器来安装,如下List-1 List-1 192.168.33.34 presto-coordinator 192.168.33.35...server服务中即作为coordinator作为worker,我们这是为false node-scheduler.include-coordinator=false 2、jvm.config,在etc...Worker节点执行 一个Discovery Server节点,Discovery Server: 通常内嵌于Coordinator节点中,worker会将自己注册到这里 多个Worker节点,负责实际执行查询任务...,负责与HDFS交互读取数据 Presto查询引擎低延迟的原因: 基于内存的并行计算 流水线式计算作业 本地化计算 动态编译执行计划 Hive是存储、计算引擎,不过Persto不做存储。

1.3K30

深度学习什么问题

深度学习什么问题? 自从深度学习开始蓬勃发展以来,我们尝试在任何地方使用神经网络。在许多重要领域,它非常有效并可以得到最先进的结果,例如在计算机视觉,自然语言处理,语音分析和信号处理等领域。...理论基础 :我们通用逼近理论。但是不够深入。 在现代机器学习框架中,似乎很难解决这些问题。但是我们可以用某种方式来解决! 数学建模什么用?...我希望看到下面这样的东西: 链接:https://pan.baidu.com/s/10Pj5_5d1saesbvT8JKfkMg 提取码:88rc 它适用于对于微分方程或其他模型而言过于复杂的图像,允许生成和操纵对象,可解释性...可以看到,第5个特征负责改变心跳的形式,第8个特征代表心脏状况(蓝色表示梗塞症状,而红色心电图与它相反),第10个特征改变脉搏等。 解构心电图节拍 关于金融数据,一切都不是那么清楚(不足为奇)。

1K30

Presto介绍及常用查询优化方法总结

Presto提供了一套Connector接口,用于读取元信息和原始数据。 Presto 内置多种数据源,如 Hive、MySQL、Kudu、Kafka 等。...Presto 的扩展机制允许自定义 Connector,从而实现对定制数据源的查询。...1.2 实现低延时的原理 Presto是一个交互式查询引擎,我们最关心的是Presto实现低延时查询的原理,以下几点是其性能脱颖而出的主要原因: 完全基于内存的并行计算 流水线 本地化计算 动态编译执行计划...小心使用内存和数据结构 GC控制 无容错 2、Presto查询优化 2.1 存储优化 ① 合理设置分区 与Hive类似,Presto会根据元信息读取分区数据,合理的分区能减少Presto数据读取量,提升查询性能...FROM t1 JOIN t2 ON t1.a2 = t2.a2 ④ 使用WITH语句 使用Presto分析统计数据时,可考虑把多次查询合并为一次查询,用Presto提供的子查询完成。

2.4K00

大数据平台建设 —— SQL查询引擎之Presto

HDFS进行交互读取数据 Presto查询流程: ?...Presto的安装方式两种,一是到官网下载编译好的二进制包进行安装,二是从Github仓库上拉取源码进行编译安装。...Presto提供了三种Event Listener: Query Creation:Presto查询建立相关信息 Query completion:查询执行相关信息,包含成功查询的细节信息,失败查询的错误码等信息...:db01> 然后验证一下我们开发的EventListener是否生效,查看是否记录相应的事件日志信息即可: [root@hadoop ~]# ls /data/presto/log/ 20201116...汇总成query所用内存 机器内存管理:Coordinator一个线程,定时的轮询每台机器,查看当前的机器内存状态 Presto通过两点判断集群是否达到了内存的上限: General Pool出现阻塞节点

2.4K41

线上Presto查询Hudi表异常排查

引入 线上用户反馈使用Presto查询Hudi表出现错误,而将Hudi表的文件单独创建parquet类型表时查询无任何问题,关键报错信息如下 40931f6e-3422-4ffd-a692-6c70f75c9380...进行试验发现当Hudi表单文件大小较小时,使用Presto查询一切正常。 ? 构建Hudi表中单文件大小为100MB以上数据集,使用Presto查询。 ?...但Presto对于合法parquet文件检查为何会报错?带着这个疑问开始在本地debug Presto,首先在Presto服务端和IDEA中进行相应的配置。...自此可以发现是由于参数不对的bug导致了异常,鉴于这个bug对Presto社区其他用户也可能产生影响,于是查看Presto的master分支是否修复了该问题,若未修复,可将该patch回推到社区,于是查看了...Presto的master分支对应代码,发现已经开发者修复了!

92120

Presto如何提升Hudi表查询性能?

分享一篇关于使用Hudi Clustering来优化Presto查询性能的talk talk主要分为如下几个部分 •演讲者背景介绍•Apache Hudi介绍•数据湖演进和用例说明•Hudi Clustering...; 而对于查询引擎而言,Hudi可以将其表信息注册至Metastore中,查询引擎如Presto即可与Metastore交互获取表的元信息并查询表数据。...由于Uber内部大规模使用了Presto查询引擎,下面重点介绍Hudi和PrestoDB的集成细节。...介绍完Hudi和PrestoDB集成现状后,来看看使用案例和场景,Hudi与Presto的集成是如何降低成本和提高查询性能的 大数据场景下,对于写入(摄取)和查询引擎的优化思路通常不同,可以从两个维度进行对比...Job跨表重组数据布局);根据历史查询性能优化新的数据布局;在Presto中添加二级索引进一步减少查询时间;提升重写性能(如对于某些策略降低重写数据开销); 好了,今天的分享就这里,欢迎关注Hudi邮件列表

1.3K20

即席查询引擎对比:我为什么选择Presto

并且需要在短时间内给出查询的结果,这就对响应速度了严格的要求,从查询输入到用户得到结果必须是秒级的相应。...对于性能方面的评测,19年易观整理了一个完整的测试,兴趣的可以看看:https://github.com/analysys/public-docs/ 这里我截个图,供参考: 这图是多表的 这个图是单表的...如果你Hive的离线数仓,又想引入即席查询的功能,那就选Presto和Impala。 我的测试Presto和Impala多表查询性能差不多,单表查询方面Presto好。...本着乔选乔,无乔选鲨 的理论: 如果你们的集群是CDH,那么直接上Impala就可以了,因为安装就是点个按钮的事,CDH上装Presto就要完整的手动安装了,既然因为懒选了CDH那就懒到底,点个按钮就能装好他不香吗...如果你多数据源联合查询的需求,那么直接Presto吧因为没得选。 最后就是二者对于实时数仓的支持: Impala:直接上Kudu就可以了一个公司的不会支持不好。

3.3K10

关于Presto对lzo压缩的表查询使用记录

关于Presto对lzo压缩的表查询使用记录 0.写在前面 1.正文 0.提前说明 1.查询ads层表 2.查询dwd|dws|dwt层表 3.查询ods层表 ---- ---- 0.写在前面 实验背景...❞ 2.查询dwd|dws|dwt层表 ❝「Presto不支持parquet列式存储加lzo压缩的表的查询」 ❞ Presto-Client查询语句: select * from dwd_start_log...执行查询语句,不再报错 presto:gmall> select * from dwd_start_log 3.查询ods层表 ods_log表是纯lzo压缩 presto:gmall> select.../2014/06/16/presto.html ❞ 解释说明 Presto是即席查询工具,ods层的数据含有敏感数据和脏数据,通常情况下,数据查询不需要对ods层查询,对于本项目而言,即便Presto读取不了...解决方案 对于这个问题,需要修改hadoop-lzo的代码,美团的解决方案开源在Github上: ❝https://github.com/MTDATA/presto/commits/mt-0.60 ❞

1.1K30

Presto查询执行过程和索引条件下推分析

前言: 《Presto 分布式SQL查询引擎及原理分析》详细介绍了Presto 的数据模型、技术架构,解释了Presto 对于查询分析有着较高性能。任何SQL引擎,执行过程都是比较复杂的。...Presto执行计划分析 Presto 生成查询执行计划流程 SQL 编译为最终的物理执行计划大概分为:词法分析、语义分析、执行计划生成、优化执行计划、执行计划分段等几个步骤。 ?...resources/META-INF/services/ 中添加一个名为 io.prestosql.spi.Plugin 的文件, 文件内容的connector中实现了io.prestosql.spi.Plugin 这个接口的类...Presto Connector分区执行过程 Hadoop InputFormat 提到分布式架构的分区技术,不得不说说 Hadoop InputFormat,这个是 MapReduce 的基础。...RecordSet 个 InMemoryRecordSet 默认的实现,用于把返回的数据集直接放到内存List中。

4.2K40

Presto 分布式SQL查询引擎及原理分析

用户可以使用标准SQL进行数据查询和分析计算; 5.扩展性:众多 SPI 扩展点支持,开发人员可编写UDF、UDTF。...Presto 应用场景 1.实时计算:Presto 性能优越,实时查询工具上的重要选择。 2.Ad-Hoc查询:数据分析应用、Presto 根据特定条件的查询返回结果和生成报表。...5.作为MPP:Presto Connector 非常好的扩展性,可进行扩展开发,可支持其他异构非SQL查询引擎转为SQL,支持索引下推。...Presto 发行版 Presto 到目前为止 Presto 两大分支: PrestoDB 和 PrestoSQL。两个发行版都满足基本功能,只是在技术细节细微差别。...答:这个问题应该先回答对标产品,了定位才能确定角色。

4.5K21

PRESTO-分布式大数据SQL查询引擎

http://prestodb-china.com/ PRESTO是什么? Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。...Presto支持在线数据查询,包括Hive, Cassandra, 关系数据库以及专有数据存储。 一条Presto查询可以将多个数据源的数据进行合并,可以跨越整个组织进行分析。...Presto以分析师的需求作为目标,他们期望响应时间小于1秒到几分钟。 Presto终结了数据分析的两难选择,要么使用速度快的昂贵的商业方案,要么使用消耗大量硬件的慢速的“免费”方案。 谁在使用它?...Facebook使用Presto进行交互式查询,用于多个内部数据存储,包括300PB的数据仓库。...每天1000多名Facebook员工使用Presto,执行查询次数超过30000次,扫描数据总量超过1PB。 领先的互联网公司包括Airbnb和Dropbox都在使用Presto

1.6K50

JavaScript中的类什么问题

作者:Fernando Doglio 译者:前端小智 来源:meidum 点赞再看,微信搜索【大迁世界】,B站关注【前端小智】这个没有大厂背景,但有着一股向上积极心态人。...并不是说 JS 的类问题,但是如果你使用该语言已有一段时间,特别是使用过ES5,那么你可能就知道了从原型继承到当前类模型的演变。 原型链会有什么问题? 以我的拙见,这个问题的答案是:没有。...你会问,这有什么问题吗?这就是他们真正做的,在我们已经拥有的原型继承之上添加了一些构成,并决定将其称为类,这反过来又让开发人员认为他们正在处理一种面向对象的语言,而实际上它们并不是。...现在我们了JS的rest参数,这使我们可以拥有一个任意数字,但是,这也意味着我们必须在方法中添加额外的代码来处理这种动态性。...受保护的属性和方法 我们已经了公开的可见性,而且我们很快就得到了方法和属性的私有可见性(通过#前缀)。

1.6K10

大数据开发:分布式OLAP查询引擎Presto入门

Presto是什么? Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。...Presto支持在线数据查询,包括Hive,Cassandra,关系数据库以及专有数据存储。一条Presto查询可以将多个数据源的数据进行合并,可以跨越整个组织进行分析。...Presto架构 Presto查询引擎是一个Master-Slave的主从架构,Coordinator是主,worker是从。...Presto三大特点 高性能:Presto基于内存计算,减少数据的落盘,计算更快;轻量快速,支持近乎实时的查询; 多数据源:通过配置不同的Connector,Presto可以连接不同的数据源,所以可以将来自不同数据源的表进行连接查询...关于大数据开发,分布式OLAP查询引擎Presto入门,以上就为大家做了简单的介绍了。在交互式查询领域,Presto可以说是非常代表性的一个产品,在大规模交互式查询式,性能可观。

1.3K20
领券