配置单元ORC上的Presto查询错误，无法从双精度类型的ORC流中读取SQL类型real - 腾讯云开发者社区

在开放融合的 Data Cloud 上，业务方可以消费完整的数据生命周期，从采集-存储-计算-分析-洞察。还能够满足位于不同数据中心、不同类型数据源的数据联合分析/即时查询的需求。...3.3 大文件 ORC 统计信息读取优化 Presto 在读取 ORC 文件时，会先读取文件的 Stripe 统计信息，用于优化 ORC 的数据读取，但是如果 ORC 文件比较大，同时文件数量又比较多的情况下...，后续 ORC Splits 分发至 Worker 中执行时，无需再读取 Stripe 统计信息，直接读取数据即可。..."tables"：Presto 查询中涉及到的库表，如果已经在"tables"配置项中存在，则 Presto 会从对应的 Alluxio 集群中读取该库表的数据（首次从 Alluxio 中读取时，如果未有缓存...，则 Alluxio 会将数据缓存下来，后续的读取会直接访问缓存），如果没有在"tables"中配置，则 Presto 会直接访问底层的 HDFS、不经过 Alluxio。"

1.5K2 1

天穹SuperSQL如何把腾讯 PB 级大数据计算做到秒级？

在开放融合的Data Cloud上，业务方可以消费完整的数据生命周期，从采集-存储-计算-分析-洞察。还能够满足位于不同数据中心、不同类型数据源的数据联合分析/即时查询的需求。...天穹Presto隐式转换规则表如下所示：（绿色表示支持从Source Type到Target Type的隐式转换，其余空白格表示不支持类型之间的隐式转换） 2.2 Query运行信息持久化 Presto...3.3 大文件ORC统计信息读取优化 Presto在读取ORC文件时，会先读取文件的Stripe统计信息，用于优化ORC的数据读取，但是如果ORC文件比较大，同时文件数量又比较多的情况下，StripeStatistics..."tables"：Presto查询中涉及到的库表，如果已经在"tables"配置项中存在，则Presto会从对应的Alluxio集群中读取该库表的数据（首次从Alluxio中读取时，如果未有缓存，则Alluxio...会将数据缓存下来，后续的读取会直接访问缓存），如果没有在"tables"中配置，则Presto会直接访问底层的HDFS、不经过Alluxio。"

1.8K4 1

您找到你想要的搜索结果了吗？

是的

没有找到

从 0 到 1 学习 Presto，这一篇就够了

中的数据库 Table：对应 MySql 中的表 2）Presto 的存储单元包括： Page：多行数据的集合，包含多个列的数据，内部仅提供逻辑行，实际以列式存储。...并且从几次性能的比较查询来看，Impala性能稍领先于presto，但是presto在数据源支持上非常丰富，包括hive、图数据库、传统关系型数据库、Redis等大家也可以根据上面的链接...,因为机器的资源无法用于调度,管理和监视查询执行的关键任务 # 如果需要在协调器所在节点配置 worker 节点改为 true 即可 node-scheduler.include-coordinator...6.1.2 使用 ORC 格式存储 Presto 对 ORC文件读取进行了特定优化，因此，在 Hive 中创建 Presto 使用的表时，建议采用 ORC 格式存储。...6.1.4 预先排序对于已经排序的数据，在查询的数据过滤阶段，ORC格式支持跳过读取不必要的数据。比如对于经常需要过滤的字段可以预先排序。

6.5K4 3

Hive - ORC 文件存储格式详细解析

ORC文件是自描述的，它的元数据使用Protocol Buffers序列化，并且文件中的数据尽可能的压缩以降低存储空间的消耗，目前也被Spark SQL、Presto等查询引擎支持，但是Impala对于...数据访问读取ORC文件是从尾部开始的，第一次读取16KB的大小，尽可能的将Postscript和Footer数据都读入内存。...然后再根据index中保存的下一个row group的位置信息调至该stripe中第一个需要读取的row group中。 ORC文件格式只支持读取指定字段，还不支持只读取特殊字段类型中的指定部分。...由于ORC中使用了更加精确的索引信息，使得在读取数据时可以指定从任意一行开始读取，更细粒度的统计信息使得读取ORC文件跳过整个row group，ORC默认会对任何一块数据和索引信息使用ZLIB压缩，因此...编码器一般会将一个数据流压缩成一个个小的压缩单元，在目前的实现中，压缩单元的默认大小是256KB。二、Hive+ORC建立数据仓库在建Hive表的时候我们就应该指定文件的存储格式。

11.3K4 3

Presto介绍与常用查询优化方法

如果配置了Hive Connector，需要配置一个Hive MetaStore服务为Presto提供Hive元信息，Worker节点与HDFS交互读取数据。...使用列式存储 Presto对ORC文件读取做了特定优化，因此在Hive中创建Presto使用的表时，建议采用ORC格式存储。相对于Parquet，Presto对ORC支持更好。...使用压缩数据压缩可以减少节点间数据传输对IO带宽压力，对于即席查询需要快速解压，建议采用snappy压缩预先排序对于已经排序的数据，在查询的数据过滤阶段，ORC格式支持跳过读取不必要的数据。...与Impala对比 Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具，Impala没有再使用缓慢的Hive+MapReduce批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎...Impala性能稍领先于presto,但是presto在数据源支持上非常丰富，presto对SQL的支持上也更多一些。

3.4K5 0

Presto介绍及常用查询优化方法总结

小心使用内存和数据结构 GC控制无容错 2、Presto查询优化 2.1 存储优化 ① 合理设置分区与Hive类似，Presto会根据元信息读取分区数据，合理的分区能减少Presto数据读取量，提升查询性能...② 使用列式存储 Presto对ORC文件读取做了特定优化，因此在Hive中创建Presto使用的表时，建议采用ORC格式存储。相对于Parquet，Presto对ORC支持更好。...③ 使用压缩数据压缩可以减少节点间数据传输对IO带宽压力，对于即席查询需要快速解压，建议采用snappy压缩 ④ 预先排序有条件的话提前做好排序，对于已经排序的数据，在查询的数据过滤阶段，ORC格式支持跳过读取不必要的数据...如果右边的表数据量太大，则可能会报内存溢出错误。...Presto的这种配置类型会将左表和右表同时以join key的hash value为分区字段进行分区。

2.5K0 0

Spark向量化计算在美团生产环境的实践

）还是对标量（scalar）进行操作，T代表浮点数的类型（若为s则为单精度浮点型，若为d则为双精度浮点）；整型内置函数的后缀是epUY，U表示整数的类型（若为无符号类型则为u，否在为i），而Y为操作的数据类型的位数...如Meta内部主要大数据引擎有Presto和Spark，建设一个跨引擎的执行库，优化同时支持Presto和Spark显然是更好的选择；OLAP引擎向量化计算本身就是标配；流计算引擎出于性能考虑，也可以攒批而非一条条处理数据...图9：Apache ORC与改造后的Velox ORC读取性能对比，上为Apache ORC | 4.3 Native HDFS客户端优化首先介绍一下HDFS C++客户端对ORC文件读取某一列数据的过程...图10：ORC文件读取过程在生产环境测试中，我们定位到两个数据读取相关的性能问题：小数据量随机读放大。...这样就从执行计划转换策略层面规避这个问题，避免对Velox里Final Aggregation内部代码做过多的改动。 3. 浮点类型转换精度错误。

1341 0

0767-Hive ACID vs. Delta Lake

.Support for Parquet and ORC formats 4.Support for Hive, Spark, and Presto 5.Support for SQL DML statements...事务 - Presto拥有自己的事务管理，我们扩展了该事务管理，以便为Presto事务中的每个查询设置Hive事务。...多个Hive事务（一次仅一个活动的）可以成为Presto事务的一部分。它们在查询开始时打开，并在查询结束时关闭；Hive事务中的任何失败都会使整个Presto事务失败。...在此实现中，们确保事务表继续使用流拆分生成(streaming split generation)，利用读数据的延迟物化(lazy materialization)，并且不会受到Presto原生的ORC...reader对STRUCT数据类型的性能影响。

1.9K2 0

ORC文件存储格式的深入探究

在Hive-0.13中，ORC文件格式只支持读取指定字段，还不支持只读取特殊字段类型中的指定部分。使用ORC文件格式时，用户可以使用HDFS的每一个block存储ORC文件的一个stripe。...对于一个ORC文件来说，stripe的大小一般需要设置得比HDFS的block小，如果不这样的话，一个stripe就会分别在HDFS的多个block上，当读取这种数据时就会发生远程读数据的行为。...三、索引在ORC文件中添加索引是为了更加高效的从HDFS读取数据。在ORC文件中使用的是稀疏索引(sparse indexes)。...（2）String 对于一个String类型字段，ORC writer在开始时会检查该字段值中不同的内容数占非空记录总数的百分比不超过0.8的话，就使用字典编码，字段值会保存在一个比特流，一个字节流及两个整形流中...编码器一般会将一个数据流压缩成一个个小的压缩单元，在目前的实现中，压缩单元的默认大小是256KB。五、内存管理当ORC writer写数据时，会将整个stripe保存在内存中。

7.3K4 0

干货 | 携程Presto技术演进之路

Presto严格的分区类型检查和表类型检查，导致大量用户在Presto上发起的查询以失败告终，对于那些使用老分区重新刷数据的用户简直就是灾难。...无法知道用户的查询量和用户的查询习惯，从而无法反馈给上游用户有效的信息，以帮助应用层开发人员更合理的使用Presto引擎。...通过这个版本的升级，结合对Presto的一部分改进，解决了几个主要问题： Presto内存泄漏问题。 Presto读取Avro文件格式存在字段遗漏的问题。 Presto语法上无法支持整数类型相乘。...第三阶段，资源管控和监控平台在第三个版本中，我们解决了以下问题：拦截大量生成split的查询SQL Presto监控平台初步搭建限制最大访问的分区数量数据采集流程图 ?...实时告警平台，对于错误的查询，Presto能够实时的发送异常查询到告警平台，帮助运维人员快速响应和发现错误以便及时处理。

3.3K2 0

快速学习-Presto上使用SQL遇到的坑

第5章 Presto上使用SQL遇到的坑 https://segmentfault.com/a/1190000013120454?...utm_source=tag-newest 5.1 如何加快在Presto上的数据统计很多的时候，在Presto上对数据库跨库查询，例如Mysql数据库。...这个时候Presto的做法是从MySQL数据库端拉取最基本的数据，然后再去做进一步的处理，例如统计等聚合操作。...t > timestamp '2017-01-01 00:00:00'; 5.9 MD5函数的使用 Presto中MD5函数传入的是binary类型，返回的也是binary类型，要对字符串进行MD5操作时...5.11 ORC格式 Presto中对ORC文件格式进行了针对性优化，但在impala中目前不支持ORC格式的表，hive中支持ORC格式的表，所以想用列式存储的时候可以优先考虑ORC格式。

4.3K3 0

关于Presto避坑的小小指南

Presto的是什么？优势是什么呢？从官方文档中我们了解到 Presto是一个分布式SQL查询引擎，用于查询分布在一个或多个不同数据源中的大数据集。...遇到过的问题如何加快在Presto上的数据统计很多的时候，在Presto上对数据库跨库查询，例如Mysql数据库。...这个时候Presto的做法是从MySQL数据库端拉取最基本的数据，然后再去做进一步的处理，例如统计等聚合操作。...t > timestamp '2017-01-01 00:00:00'; MD5函数的使用 Presto中MD5函数传入的是binary类型，返回的也是binary类型，要对字符串进行MD5操作时，需要转换...ORC格式 Presto中对ORC文件格式进行了针对性优化，但在impala中目前不支持ORC格式的表，hive中支持ORC格式的表，所以想用列式存储的时候可以优先考虑ORC格式。

2K1 0

两种列式存储格式：Parquet和ORC

，例如Hive、Spark SQL、Impala、Presto等，同时也产生了多个高性能的列式存储格式，例如RCFile、ORC、Parquet等，本文主要从实现的角度上对比分析ORC和Parquet两种典型的列存格式...ORC文件是自描述的，它的元数据使用Protocol Buffers序列化，并且文件中的数据尽可能的压缩以降低存储空间的消耗，目前也被Spark SQL、Presto等查询引擎支持，但是Impala对于...数据访问读取ORC文件是从尾部开始的，第一次读取16KB的大小，尽可能的将Postscript和Footer数据都读入内存。...由于ORC中使用了更加精确的索引信息，使得在读取数据时可以指定从任意一行开始读取，更细粒度的统计信息使得读取ORC文件跳过整个row group，ORC默认会对任何一块数据和索引信息使用ZLIB压缩，因此...查询SQL：选择TPC-DS中涉及到上述模型的10条SQL并对其进行改造。

5.2K3 0

快速学习-Presto优化

第3章 Presto优化 3.1 数据存储 1）合理设置分区与Hive类似，Presto会根据元信息读取分区数据，合理的分区能减少Presto数据读取量，提升查询性能。...2）使用列式存储 Presto对ORC文件读取做了特定优化，因此在Hive中创建Presto使用的表时，建议采用ORC格式存储。相对于Parquet，Presto对ORC支持更好。...4）预先排序对于已经排序的数据，在查询的数据过滤阶段，ORC格式支持跳过读取不必要的数据。比如对于经常需要过滤的字段可以预先排序。...SELECT count(*) FROM nation_orc WHERE n_name=’AUSTRALIA’; 3.2 查询SQL优化 1）只选择使用必要的字段由于采用列式存储，选择需要的字段可加快字段的读取...如果右边的表数据量太大，则可能会报内存溢出错误。 [GOOD] SELECT ...

1.9K2 0

Presto在滴滴的探索与实践

假如配置了Hive Connector，需要配置一个Hive MetaStore服务为Presto提供Hive元信息，Worker节点通过Hive Connector与HDFS交互，读取原始数据。...在Gateway层，我们做了一些优化来区分大查询、中查询及小查询，对于查询时间小于3分钟的，我们即认为适合Presto查询，比如通过HBO（基于历史的统计信息）及JOIN数量来区分查询大小，架构图见：...同时，因为使用Gateway，即使SQL查询出错，SQL也会转发到Spark及Hive上，所以我们没有使用Presto的Spill to Disk功能。...主要工作：隐式类型转换语义兼容语法兼容支持Hive视图 Parquet HDFS文件读取支持大量UDF支持其他 Hive SQL兼容，我们迭代了三个大版本，目前线上SQL通过率97~99%。...下图是线上Presto集群的SQL查询通过率及失败原因占比，'null' 表示查询成功的SQL，其他表示错误原因： ▍4.2 物理资源隔离上文说到，对性能要求高的业务与大查询业务方混合跑，查询性能容易受到影响

1.5K4 0

Presto对ORC格式的优化

参考文章：https://prestosql.io/blog/2019/04/23/even-faster-orc.html 最近Presto的官网发表了一篇文章，叙述了新版本的Presto对ORC格式读取的性能优化过程...在 TPC-DS benchmark 测试中，对于 ORC 格式新的读取方式 Presto 总的查询耗费时间减少了约5%，CPU使用量减少了约9%。 What improved?...Optimize for bulk reads 在之前的老版本代码中，Presto 对于每种数据类型都是用同一个的 batch size ，也就是说每次都会读取1024个固定的 Value。...但是ORC格式对于一些数据类型，例如 booleans、numbers、bytes 等，使用不同的 batch size 性能会更好（将对 float 和 double 类型的读取从loading a...reading 在做完上面的优化后，Presto在大多数不带null值的数据类型的测试中获得了约（0.5ns到3ns）/Value的提升，但是对于带null值的数据类型的测试反倒下降了 6ns/Value

2.5K4 0

干货 | 再来聊一聊 Parquet 列式存储格式

Parquet 是 Hadoop 生态圈中主流的列式存储格式，最早是由 Twitter 和 Cloudera 合作开发，2015 年 5 月从 Apache 孵化器里毕业成为 Apache 顶级项目。...谓词就是指这些过滤条件，即返回bool： true和false的表达式，比如SQL中的大于小于等于、Like、Is Null等。...2、列块，Column Chunk：行组中每一列保存在一个列块中，一个列块具有相同的数据类型，不同的列块可以使用不同的压缩。...Parquet 与 ORC 的不同点总结以下：嵌套结构支持：Parquet 能够很完美的支持嵌套式结构，而在这一点上 ORC 支持的并不好，表达起来复杂且性能和空间都损耗较大。...查询引擎支持：这方面 Parquet 可能更有优势，支持 Hive、Impala、Presto 等各种查询引擎，而 ORC 与 Hive 接触的比较紧密，而与 Impala 适配的并不好。

2.4K4 0

万亿数据秒级响应，Apache Doris 在360数科实时数仓中的应用

大数据领域 Apache 基金会项目构成了事实标准，在 360数科内部已有广泛应用，且 Apache 开源协议对商业友好、无法律风险，不会有协议上的顾虑。...应用实践 Doris 对 Hive 数仓的查询加速方案在即席查询场景中，传统的查询引擎（Hive/Spark/Presto）越来越满足不了数据开发者、数据分析师对查询响应性能提出的高要求，动辄几十秒甚者分钟级的查询耗时极大的限制了相关场景的开发效率...例如，数据开发曾经反馈查询 Doris SQL 失败，检索日志出现了大量连接数超限的异常，我们通过审计日志，迅速定位到了问题原因是由于上游导入工作流 Bug 在短时间内创建较多的数据库连接。...大数据平台自助导入任务工作流适配了 Doris Broker Load 导入方式，数据开发零代码——通过简单的勾选配置即可完成自助的 Doris 数据导入工作流创建。...: Invalid column selected xxx 在阅读了 Broker Load 相关代码后确认了问题原因：在一次 Broker Load 导入过程中，导入任务的字段解析器会读取一个 ORC

7162 0

再来聊一聊 Parquet 列式存储格式

Parquet 是 Hadoop 生态圈中主流的列式存储格式，最早是由 Twitter 和 Cloudera 合作开发，2015 年 5 月从 Apache 孵化器里毕业成为 Apache 顶级项目。...谓词就是指这些过滤条件，即返回bool：true和false的表达式，比如SQL中的大于小于等于、Like、Is Null等。...2、列块，Column Chunk：行组中每一列保存在一个列块中，一个列块具有相同的数据类型，不同的列块可以使用不同的压缩。...Parquet 与 ORC 的不同点总结以下：嵌套结构支持：Parquet 能够很完美的支持嵌套式结构，而在这一点上 ORC 支持的并不好，表达起来复杂且性能和空间都损耗较大。...查询引擎支持：这方面 Parquet 可能更有优势，支持 Hive、Impala、Presto 等各种查询引擎，而 ORC 与 Hive 接触的比较紧密，而与 Impala 适配的并不好。

10.7K1 1

Hive重点难点：Hive原理&优化&面试

，该元数据用于对查询树中的表达式进行类型检查，以及基于查询谓词修建分区；步骤5：编译器生成的计划是分阶段的DAG，每个阶段要么是 map/reduce 作业，要么是一个元数据或者HDFS上的操作。...在每个 task(mapper/reducer) 中，从HDFS文件中读取与表或中间输出相关联的数据，并通过相关算子树传递这些数据。...步骤7、8和9：最终的临时文件将移动到表的位置，确保不读取脏数据(文件重命名在HDFS中是原子操作)。对于用户的查询，临时文件的内容由执行引擎直接从HDFS读取，然后通过Driver发送到UI。...map 端执行在多路 Join 中，根据用户提示决定最后流哪个表删除不必要的 ReduceSinkOperators 对于带有Limit子句的查询，减少需要为该表扫描的文件数对于带有Limit子句的查询...所以，从本质上来说，发生数据倾斜的原因有两种：一是任务中需要处理大量相同的key的数据。二是任务读取不可分割的大文件。

1.2K1 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

腾讯 PB 级大数据计算如何做到秒级？

天穹SuperSQL如何把腾讯 PB 级大数据计算做到秒级？

从 0 到 1 学习 Presto，这一篇就够了

Hive - ORC 文件存储格式详细解析

Presto介绍与常用查询优化方法

Presto介绍及常用查询优化方法总结

Spark向量化计算在美团生产环境的实践

0767-Hive ACID vs. Delta Lake

ORC文件存储格式的深入探究

干货 | 携程Presto技术演进之路

快速学习-Presto上使用SQL遇到的坑

关于Presto避坑的小小指南

两种列式存储格式：Parquet和ORC

快速学习-Presto优化

Presto在滴滴的探索与实践

Presto对ORC格式的优化

干货 | 再来聊一聊 Parquet 列式存储格式

万亿数据秒级响应，Apache Doris 在360数科实时数仓中的应用

再来聊一聊 Parquet 列式存储格式

Hive重点难点：Hive原理&优化&面试

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐