前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据开发:分布式OLAP查询引擎Presto入门

大数据开发:分布式OLAP查询引擎Presto入门

作者头像
成都加米谷大数据
修改2021-01-19 17:55:36
1.3K0
修改2021-01-19 17:55:36
举报
文章被收录于专栏:大数据开发

在之前的《大数据开发:OLAP开源数据分析引擎简介》一文当中,我们对主流的一些开源数据分析查询引擎做了大致的介绍,今天的大数据开发分享,我们具体来讲解其中的Presto查询引擎,是什么,为什么会出现,又能够解决什么样的数据处理需求。

http://www.dtinone.net/news/2960.html
http://www.dtinone.net/news/2960.html

Presto是什么?

Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。

Presto为什么会出现?

Hadoop提供了大数据存储与计算的一整套解决方案;但是它采用的是MapReduce计算框架,只适合离线和批量计算,无法满足快速实时的Ad-Hoc查询计算的性能要求。

Hive使用MapReduce作为底层计算框架,是专为批处理设计的。但随着数据越来越多,使用Hive进行一个简单的数据查询可能要花费几分到几小时,显然不能满足交互式查询的需求。

http://www.dtinone.net/news/2960.html
http://www.dtinone.net/news/2960.html

Presto可以做什么?

Presto支持在线数据查询,包括Hive,Cassandra,关系数据库以及专有数据存储。一条Presto查询可以将多个数据源的数据进行合并,可以跨越整个组织进行分析。

Presto以分析师的需求作为目标,他们期望响应时间小于1秒到几分钟。Presto终结了数据分析的两难选择,要么使用速度快的昂贵的商业方案,要么使用消耗大量硬件的慢速的“免费”方案。

Presto架构

http://www.dtinone.net/news/2960.html
http://www.dtinone.net/news/2960.html

Presto查询引擎是一个Master-Slave的主从架构,Coordinator是主,worker是从。

一个presto集群,由一个Coordinator节点,一个Discovery Server节点(通常内嵌于Coordinator节点中),多个Worker节点组成。其中,Coordinator负责接收查询请求、解析SQL语句、生成执行计划、任务调度给Worker节点执行、worker管理;Worker节点是工作节点,负责实际执行查询任务Task。

Worker节点启动后向Discovery Server服务注册;Coordinator从Discovery Server获得可以正常工作的Worker节点。

presto采取三层表结构:catalog对应某一类数据源,例如hive的数据,或mysql的数据;schema对应mysql中的数据库;table对应mysql中的表。

Presto三大特点

高性能:Presto基于内存计算,减少数据的落盘,计算更快;轻量快速,支持近乎实时的查询;

多数据源:通过配置不同的Connector,Presto可以连接不同的数据源,所以可以将来自不同数据源的表进行连接查询;

扩展性:可以根据实际的需要,开发特定的数据源的Connector,从而可以SQL查询此数据元的数据。

关于大数据开发,分布式OLAP查询引擎Presto入门,以上就为大家做了简单的介绍了。在交互式查询领域,Presto可以说是非常代表性的一个产品,在大规模交互式查询式,性能可观。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Presto是什么?
  • Presto为什么会出现?
  • Presto可以做什么?
  • Presto架构
  • Presto三大特点
相关产品与服务
大数据处理套件 TBDS
腾讯大数据处理套件(Tencent Big Data Suite,TBDS)依托腾讯多年海量数据处理经验,基于云原生技术和泛 Hadoop 生态开源技术提供的可靠、安全、易用的大数据处理平台。 TBDS可在公有云、私有云、非云化环境,根据不同数据处理需求组合合适的存算分析组件,包括 Hive、Spark、HBase、Flink、Presto、Iceberg、Elasticsearch、StarRocks 等,以快速构建企业级数据湖仓。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档