前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >快速学习-Presto简介

快速学习-Presto简介

作者头像
cwl_java
发布2020-03-24 11:57:41
1.8K0
发布2020-03-24 11:57:41
举报
文章被收录于专栏:cwl_Javacwl_Java

第1章 Presto简介

1.1 Presto概念

Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。 Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。

注意:虽然Presto可以解析SQL,但它不是一个标准的数据库。不是MySQL、Oracle的代替品,也不能用来处理在线事务(OLTP)。

1.2 Presto应用场景

Presto支持在线数据查询,包括Hive,关系数据库(MySQL、Oracle)以及专有数据存储。一条Presto查询可以将多个数据源的数据进行合并,可以跨越整个组织进行分析。

Presto主要用来处理响应时间小于1秒到几分钟的场景。

1.3 Presto架构

Presto是一个运行在多台服务器上的分布式系统。完整安装包括一个Coordinator和多个Worker。由客户端提交查询,从Presto命令行CLI提交到Coordinator。Coordinator进行解析,分析并执行查询计划,然后分发处理队列到Worker。

在这里插入图片描述
在这里插入图片描述

Presto有两类服务器:Coordinator和Worker。 1)Coordinator Coordinator服务器是用来解析语句,执行计划分析和管理Presto的Worker结点。Presto安装必须有一个Coordinator和多个Worker。如果用于开发环境和测试,则一个Presto实例可以同时担任这两个角色。

Coordinator跟踪每个Work的活动情况并协调查询语句的执行。Coordinator为每个查询建立模型,模型包含多个Stage,每个Stage再转为Task分发到不同的Worker上执行。

Coordinator与Worker、Client通信是通过REST API。 2)Worker Worker是负责执行任务和处理数据。Worker从Connector获取数据。Worker之间会交换中间数据。Coordinator是负责从Worker获取结果并返回最终结果给Client。

当Worker启动时,会广播自己去发现 Coordinator,并告知 Coordinator它是可用,随时可以接受Task。 Worker与Coordinator、Worker通信是通过REST API。 3)数据源 贯穿全文,你会看到一些术语:Connector、Catelog、Schema和Table。这些是Presto特定的数据源 (1)Connector Connector是适配器,用于Presto和数据源(如Hive、RDBMS)的连接。你可以认为类似JDBC那样,但却是Presto的SPI的实现,使用标准的API来与不同的数据源交互。

Presto有几个内建Connector:JMX的Connector、System Connector(用于访问内建的System table)、Hive的Connector、TPCH(用于TPC-H基准数据)。还有很多第三方的Connector,所以Presto可以访问不同数据源的数据。

每个Catalog都有一个特定的Connector。如果你使用catelog配置文件,你会发现每个文件都必须包含connector.name属性,用于指定catelog管理器(创建特定的Connector使用)。一个或多个catelog用同样的connector是访问同样的数据库。例如,你有两个Hive集群。你可以在一个Presto集群上配置两个catelog,两个catelog都是用Hive Connector,从而达到可以查询两个Hive集群。 (2)Catelog 一个Catelog包含Schema和Connector。例如,你配置JMX的catelog,通过JXM Connector访问JXM信息。当你执行一条SQL语句时,可以同时运行在多个catelog。 Presto处理table时,是通过表的完全限定(fully-qualified)名来找到catelog。例如,一个表的权限定名是hive.test_data.test,则test是表名,test_data是schema,hive是catelog。 Catelog的定义文件是在Presto的配置目录中。 (3)Schema Schema是用于组织table。把catelog好schema结合在一起来包含一组的表。当通过Presto访问hive或Mysq时,一个schema会同时转为hive和mysql的同等概念。 (4)Table Table跟关系型的表定义一样,但数据和表的映射是交给Connector。

1.4 Presto数据模型

1)Presto采取三层表结构: Catalog:对应某一类数据源,例如Hive的数据,或MySql的数据 Schema:对应MySql中的数据库 Table:对应MySql中的表

在这里插入图片描述
在这里插入图片描述

2)Presto的存储单元包括: Page:多行数据的集合,包含多个列的数据,内部仅提供逻辑行,实际以列式存储。 Block:一列数据,根据不同类型的数据,通常采取不同的编码方式,了解这些编码方式,有助于自己的存储系统对接presto。 3)不同类型的Block: (1)Array类型Block,应用于固定宽度的类型,例如int,long,double。block由两部分组成:boolean valueIsNull[]表示每一行是否有值。 T values[] 每一行的具体值。 (2)可变宽度的Block,应用于String类数据,由三部分信息组成 Slice:所有行的数据拼接起来的字符串。 int offsets[]:每一行数据的起始便宜位置。每一行的长度等于下一行的起始便宜减去当前行的起始便宜。 boolean valueIsNull[] 表示某一行是否有值。如果有某一行无值,那么这一行的便宜量等于上一行的偏移量。 (3)固定宽度的String类型的block,所有行的数据拼接成一长串Slice,每一行的长度固定。 (4)字典block:对于某些列,distinct值较少,适合使用字典保存。主要有两部分组成: 字典,可以是任意一种类型的block(甚至可以嵌套一个字典block),block中的每一行按照顺序排序编号。 int ids[]表示每一行数据对应的value在字典中的编号。在查找时,首先找到某一行的id,然后到字典中获取真实的值。

1.5 Presto优缺点

Presto中SQL运行过程:MapReduce vs Presto

在这里插入图片描述
在这里插入图片描述

使用内存计算,减少与硬盘交互。

1.5.1 优点

1)Presto与Hive对比,都能够处理PB级别的海量数据分析,但Presto是基于内存运算,减少没必要的硬盘IO,所以更快。 2)能够连接多个数据源,跨数据源连表查,如从Hive查询大量网站访问记录,然后从Mysql中匹配出设备信息。 3)部署也比Hive简单,因为Hive是基于HDFS的,需要先部署HDFS。

在这里插入图片描述
在这里插入图片描述

1.5.2 缺点

1)虽然能够处理PB级别的海量数据分析,但不是代表Presto把PB级别都放在内存中计算的。而是根据场景,如count,avg等聚合运算,是边读数据边计算,再清内存,再读数据再计算,这种耗的内存并不高。但是连表查,就可能产生大量的临时数据,因此速度会变慢,反而Hive此时会更擅长。

2)为了达到实时查询,可能会想到用它直连MySql来操作查询,这效率并不会提升,瓶颈依然在MySql,此时还引入网络瓶颈,所以会比原本直接操作数据库要慢。

1.6 Presto、Impala性能比较

https://blog.csdn.net/u012551524/article/details/79124532

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-03-23 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 第1章 Presto简介
    • 1.1 Presto概念
      • 1.2 Presto应用场景
        • 1.3 Presto架构
          • 1.4 Presto数据模型
            • 1.5 Presto优缺点
              • 1.5.1 优点
              • 1.5.2 缺点
            • 1.6 Presto、Impala性能比较
            相关产品与服务
            云数据库 SQL Server
            腾讯云数据库 SQL Server (TencentDB for SQL Server)是业界最常用的商用数据库之一,对基于 Windows 架构的应用程序具有完美的支持。TencentDB for SQL Server 拥有微软正版授权,可持续为用户提供最新的功能,避免未授权使用软件的风险。具有即开即用、稳定可靠、安全运行、弹性扩缩等特点。
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档