为什么SQL聚合函数比Python和Java(或穷人的OLAP)慢得多 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

主流的 OLAP 引擎介绍 - OLAP极简教程

impala 提供 jdbc 接口和 sql 执行引擎，可以与现有系统集成 Presto presto 是 Facebook 开源的大数据查询引擎，为了解决 hive 查询慢产生。...OLAP引擎，这些OLAP引擎的能力划分如下：场景一：简单查询简单查询指的是点查、简单聚合查询或者数据查询能够命中索引或物化视图（物化视图指的是物化的查询中间结果，如预聚合数据）。...它是由Java和C++实现的，Java提供的查询交互的接口和实现，C++实现了查询引擎部分，除此之外，Impala还能够共享Hive Metastore，甚至可以直接使用Hive的JDBC jar和beeline...Query Exec Engine 三部分组成），可以直接从 HDFS 或 HBase 中用 SELECT、JOIN 和统计函数查询数据，从而大大降低了延迟。...，一些常用的SQL(groupby 等)语句在druid里运行速度一般 Druid支持低延时的数据插入、更新，但是比hbase、传统数据库要慢很多与其他的时序数据库类似，Druid在查询条件命中大量数据情况下可能会有性能问题

9.9K2 2

关于OLAP和OLTP你想知道的一切

查询结果明显小于源数据，换句话说，数据被过滤或聚合后能够被盛放在单台服务器的内存中 OLAP系统的目标是提供快速响应的查询结果，因此查询结果通常需要进行聚合和过滤操作，得到一个较小的数据集，以减少数据传输和处理的开销...MOLAP支持一些聚合函数，如sum、avg、count等，在预处理环节进行计算，并在查询时调用。这些函数只能用于查询预聚合数据，不能查询原始明细数据。...Presto: Presto是Facebook开源的大数据查询引擎，旨在解决Hive查询速度慢的问题。使用Java编写，所有数据均在内存中处理。原生集成了Hive、HBase和关系型数据库。...此外，Impala还支持UDF（用户自定义函数）和UDAF（用户自定义聚合函数），这些函数可以用C++或Java等语言编写。...擅长查询的类型单一：一些常见的sql(group by等)在druid中运行速度一般插入更新速度慢：Druid支持低延时的数据插入、更新，但是比hbase、传统数据库要慢很多命中后的性能问题

8.9K2 3

您找到你想要的搜索结果了吗？

是的

没有找到

数据聚合的艺术：深入解析MySQL GROUP BY的底层哲学与性能之道

第一章：基石与本质——聚合函数的数学内涵与数据库实现1.1 从集合论到SQL：聚合的抽象在数学的集合论中，我们常常关心一个集合的某些总体特征，例如集合中元素的数量（基数）、数值型元素的总和、平均值、最大值和最小值...SQL中的聚合函数，正是这一数学思想在关系数据库领域的具象化体现。一个关系表，可以视作一个元组的集合。...状态保持的复杂性：某些聚合函数的计算比看起来复杂。例如AVG()，它并非一个原生状态，而是需要通过SUM()和COUNT()两个状态派生而来。...理解聚合函数与NULL的交互，是编写准确SQL语句的前提，也是深入理解SQL声明式编程范式的重要一环。...作为一名深度的实践者，我们不应满足于写出能出结果的SQL，而应深入理解其背后的“为什么”。理解为什么索引如此有效，理解临时表和文件排序如何产生，理解在数据量倍增时系统瓶颈将出现在何处。

3951 0

常见开源OLAP技术架构对比

、再按照查询速度与查询并发能力这两个指标来划分以上所列的OLAP引擎，这些OLAP引擎的能力划分如下：场景一：简单查询简单查询指的是点查、简单聚合查询或者数据查询能够命中索引或物化视图（物化视图指的是物化的查询中间结果...对于搜索类的查询效果较好，但当数据量较大或进行扫描聚合类查询时，查询性能会有较大影响。...它是由Java和C++实现的，Java提供的查询交互的接口和实现，C++实现了查询引擎部分，除此之外，Impala还能够共享Hive Metastore，甚至可以直接使用Hive的JDBC jar和beeline...Query Exec Engine 三部分组成），可以直接从 HDFS 或 HBase 中用 SELECT、JOIN 和统计函数查询数据，从而大大降低了延迟。...Druid擅长的查询类型比较单一，一些常用的SQL(groupby 等)语句在druid里运行速度一般 Druid支持低延时的数据插入、更新，但是比hbase、传统数据库要慢很多与其他的时序数据库类似

3K2 1

Java 程序员常犯的 10 个 SQL 错误

）模式（有些人用“模式-模式”,举个例子,模式可以应用到任何地方，而且都可以归为某一类模式）心境（首先，要写个好的面向对象程序是比命令式程序难的多，你得花费一些功夫）但当Java程序员写SQL语句时...另一个原因是，当你从数据库拿东西或是绑定变量时，JDBC将SQL NULL 和Java中的null对应了起来。这样导致了NULL = NULL（SQL）和null=null（Java）的误解。...这比在Java中编写正确的SQL可能更加的容易。性能表现。数据库应该比你的算法处理起来更加快.而且更加重要的是,你不必再去传递数百万条记录了。...解决方法：如果你使用像联合INSERT和UPDATE或者联合SELECT .. FOR UPDATE然后在INSERT或UPDATE等更新插入时，请三思。...8、使用聚合函数代替窗口函数（window functions）在介绍窗口函数之前，在SQL中聚合数据意味着使用GROUP BY语句与聚合函数相映射。

2K2 0

程序员在写 SQL 时常犯的10个错误

，而且都可以归为某一类模式）心境（首先，要写个好的面向对象程序是比命令式程序难的多，你得花费一些功夫）但当Java程序员写SQL语句时，一切都不一样了。...另一个原因是，当你从数据库拿东西或是绑定变量时，JDBC将SQL NULL 和Java中的null对应了起来。这样导致了NULL = NULL（SQL）和null=null（Java）的误解。...这比在Java中编写正确的SQL可能更加的容易。性能表现。数据库应该比你的算法处理起来更加快.而且更加重要的是,你不必再去传递数百万条记录了。...解决方法：如果你使用像联合INSERT和UPDATE或者联合SELECT .. FOR UPDATE然后在INSERT或UPDATE等更新插入时，请三思。...8、使用聚合函数代替窗口函数（window functions）在介绍窗口函数之前，在SQL中聚合数据意味着使用GROUP BY语句与聚合函数相映射。

9291 0

主流大数据OLAP框架对比

Presto支持标准的ANSI SQL，包括复杂查询、聚合（aggregation）、连接（join）和窗口函数（window functions)。...它是由Java和C++实现的，Java提供的查询交互的接口和实现，C++实现了查询引擎部分，除此之外，Impala还能够共享Hive Metastore，甚至可以直接使用Hive的JDBC jar和beeline...Query Exec Engine 三部分组成），可以直接从 HDFS 或 HBase 中用 SELECT、JOIN 和统计函数查询数据，从而大大降低了延迟。...（COMPUTE STATS）提供窗口函数（聚合 OVER PARTITION, RANK, LEAD, LAG, NTILE等等）以支持高级分析功能支持使用磁盘进行连接和聚合，当操作使用的内存溢出时转为磁盘操作允许在...、更新，但是比hbase、传统数据库要慢很多与其他的时序数据库类似，Druid在查询条件命中大量数据情况下可能会有性能问题，而且排序、聚合等能力普遍不太好，灵活性和扩展性不够，比如缺乏Join、子查询等

3.4K1 0

Java 程序员常犯的 10 个 SQL 错误！

，而且都可以归为某一类模式）心境（首先，要写个好的面向对象程序是比命令式程序难的多，你得花费一些功夫）但当Java程序员写SQL语句时，一切都不一样了。...另一个原因是，当你从数据库拿东西或是绑定变量时，JDBC将SQL NULL 和Java中的null对应了起来。这样导致了NULL = NULL（SQL）和null=null（Java）的误解。...这比在Java中编写正确的SQL可能更加的容易。性能表现。数据库应该比你的算法处理起来更加快.而且更加重要的是,你不必再去传递数百万条记录了。...解决方法：如果你使用像联合INSERT和UPDATE或者联合SELECT .. FOR UPDATE然后在INSERT或UPDATE等更新插入时，请三思。...8、使用聚合函数代替窗口函数（window functions）在介绍窗口函数之前，在SQL中聚合数据意味着使用GROUP BY语句与聚合函数相映射。

1.5K2 0

Java 程序员常犯的 10 个 SQL 错误！

，而且都可以归为某一类模式）心境（首先，要写个好的面向对象程序是比命令式程序难的多，你得花费一些功夫）但当Java程序员写SQL语句时，一切都不一样了。...另一个原因是，当你从数据库拿东西或是绑定变量时，JDBC将SQL NULL 和Java中的null对应了起来。这样导致了NULL = NULL（SQL）和null=null（Java）的误解。...这比在Java中编写正确的SQL可能更加的容易。性能表现。数据库应该比你的算法处理起来更加快.而且更加重要的是,你不必再去传递数百万条记录了。...8、使用聚合函数代替窗口函数（window functions）在介绍窗口函数之前，在SQL中聚合数据意味着使用GROUP BY语句与聚合函数相映射。...窗口函数能够在结果集上聚合数据，但是却没有分组。事实上，每个窗口函数都有自己的、独立的PARTITION BY语句，这个工具对于显示报告太好了。

1.7K2 0

Apache Doris 在有赞的初步尝试

为此我们做了初步的性能测试和与Druid的兼容性测试。查询性能：在初步的性能测试过程中，结果还是比较惊喜的，比Druid快很多，也比之前非向量化的版本快很多，有些场景和ClickHouse差不多。...查询这块主要分享一下我们最近在2phase aggregate做的优化。背景是我们测试在merge aggregate的过程中，发现第二阶段的聚合比第一阶段的聚合速度慢很多。...但我们从Doris的执行信息看到第二阶段的聚合比第一阶段的聚合慢不少，而测试场景下，二阶段聚合的数据量比第一阶段的聚合少很多，反而二阶段聚合的耗时还更高了。...一些SQL的基本语法都是相同的，比较大的区别是 builtin 函数。...有一些Druid Function 的函数的参数入参含义、个数，都和Apache Doris有较大不同，这导致SQL改写的过程繁琐一些，但这对于平台型的服务团队通常是不得不做的过程。

1.5K1 0

OLAP组件选型

查询结果明显小于源数据，换句话说，数据被过滤或聚合后能够被盛放在单台服务器的内存中 3、与oltp比较与OLAP 不同的是， OLTP系统强调数据库内存效率，强调内存各种指标的命令率，强调绑定变量，...Presto支持标准的ANSI SQL，包括复杂查询、聚合（aggregation）、连接（join）和窗口函数（window functions)。...等等）以支持高级分析功能支持使用磁盘进行连接和聚合，当操作使用的内存溢出时转为磁盘操作允许在where子句中使用子查询允许增量统计——只在新数据或改变的数据上执行统计计算...hbase、传统数据库要慢很多与其他的时序数据库类似，Druid在查询条件命中大量数据情况下可能会有性能问题，而且排序、聚合等能力普遍不太好，灵活性和扩展性不够，比如缺乏Join、子查询等。...借助MPP架构，在大型数据集上执行复杂SQL分析的速度比很多解决方案都要快。

3.6K3 0

客快物流大数据项目（八十五）：实时OLAP分析需求

实时OLAP分析需求一、背景介绍在之前的文章学习了离线数仓的构建，但是离线数仓的最大问题即：慢，数据无法实时的通过可视化页面展示出来，通常离线数仓分析的是“T+1”的数据，针对于时效性要求比较高的场景...缺点是慢Spark SQLSparkSQL的前身是Shark，它将 SQL 查询与 Spark 程序无缝集成,可以将结构化数据作为 Spark 的 RDD 进行查询。...DruidDruid 是一种能对历史和实时数据提供亚秒级别的查询的数据存储。Druid 支持低延时的数据摄取，灵活的数据探索分析，高性能的数据聚合，简便的水平扩展。...GreeplumGreenplum是一个开源的大规模并行数据分析引擎。借助MPP（大规模并行处理）架构，在大型数据集上执行复杂SQL分析的速度比很多解决方案都要快。...和Spark SQL类似 - 基于内存解析SQL生成执行计划Kylin - 用空间换时间，预计算Druid - 一个支持数据的实时摄入ClickHouse - OLAP领域的Hbase，单表查询性能优势巨大

1.2K7 1

基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化（二）

Spark SQL可以将结构化数据作为Spark的RDD（Resilient Distributed Datasets，弹性分布式数据集）进行查询，并整合了Scala、Java、Python、R等语言的...用户可以定义自己的标量函数（UDF）、聚合函数（UDAF）和表函数（UDTF）支持索引压缩和位图索引支持文本、RCFile、HBase、ORC等多种文件格式或存储类型使用RDBMS存储元数据，大大减少了查询执行时语义检查所需的时间...支持DEFLATE、BWT或snappy等算法操作Hadoop生态系统内存储的数据大量内建的日期、数字、字符串、聚合、分析函数，并且支持UDF扩展内建函数。...支持数据缓存提供计算统计信息（COMPUTE STATS）提供窗口函数（聚合 OVER PARTITION, RANK, LEAD, LAG, NTILE等等）以支持高级分析功能支持使用磁盘进行连接和聚合...可以看到，查询1、2、4Impala比Hive快的多，而查询3、5Impala却比Hive慢很多。

1.5K2 0

AOSP开源协议_open sap

OLAP Server现状当前主流OLAP Server几乎都是基于RDB或封装成RDB的大数据平台，有点类似早期的ROLAP（这个词已经很少被提及了），其中一个关键的特征是使用SQL作为查询语言。...RDB和SQL的特性会给OLAP Server带来诸多困难。...用SQL借助窗口函数还要写成四层嵌套的语句： select max(continuousDays)-1 from (select count(*) continuousDays from...使用报表工具可以解决报表呈现模板的快速制作，但却无法应对复杂多变的报表数据准备，以往无论使用SQL/存储过程还是Java都难以很好应对。...这种开放的计算体系能很方便完成T+0实时数据查询，同时连接存储热数据的业务库和存储冷数据的分析库（或文件）进行混合计算即可实现T+0。

1.1K1 0

你需要的不是实时数仓 | 你需要的是一款强大的OLAP数据库(下)

OLAP的目标是满足决策支持或多维环境特定的查询和报表需求，它的技术核心是"维"这个概念，因此OLAP也可以说是多维数据分析工具的集合。...Presto支持标准的ANSI SQL，包括复杂查询、聚合（aggregation）、连接（join）和窗口函数（window functions)。...STATS）提供窗口函数（聚合 OVER PARTITION, RANK, LEAD, LAG, NTILE等等）以支持高级分析功能支持使用磁盘进行连接和聚合，当操作使用的内存溢出时转为磁盘操作...、传统数据库要慢很多与其他的时序数据库类似，Druid在查询条件命中大量数据情况下可能会有性能问题，而且排序、聚合等能力普遍不太好，灵活性和扩展性不够，比如缺乏Join、子查询等。...借助MPP架构，在大型数据集上执行复杂SQL分析的速度比很多解决方案都要快。

2K2 0

HAWQ取代传统数仓实践（一）——为什么选择HAWQ

Spark宣称其应用的延迟可以比MapReduce降低几个数量级，但是我们的实际使用中，在20TB的数据集合上做SQL查询也要10分钟左右出结果，这个速度纵然是比Hive快了3倍，但显然不能支撑交互查询和...（2）丰富的函数除了包含诸多字符串、数字、日期时间、类型转换等常规标量函数以外，HAWQ还包含丰富的窗口函数和高级聚合函数，这些函数经常被用于分析型数据查询。...（5）过程化编程 HAWQ支持内建的SQL、C、Java、Perl、pgSQL、Python、R等多种语言的过程化编程。...这是通过用户自定义函数（user-defined functions，UDF）实现的。编写UDF的语言可以是SQL、C、Java、Perl、Python、R和pgSQL。...数据库开发人员常用的自然是SQL和pgSQL，PL/pgSQL函数可以为SQL语言增加控制结构，执行复杂计算任务，并继承所有PostgreSQL的数据类型（包括用户自定义类型）、函数和操作符。

2.3K8 1

基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化（一）

通过使用OLAP工具，用户可以从多个视角交互式地分析多维数据。OLAP由三个基本的分析操作构成：合并（上卷）、下钻和切片。合并是指数据的聚合，即数据可以在一个或多个维度上进行累积和计算。...通常使用一个矩阵接口操作OLAP立方体，例如电子表格程序的数据透视表，可以按维度分组执行聚合或求平均值等操作。...（2）为什么要使用Impala Impala可以使用SQL访问存储在Hadoop上的数据，而传统的MapReduce则需要掌握Java技术。...对于特殊的分析需求，还可以用C++或Java编写用户定义的函数（UDFs），补充SQL内建的功能。 Impala的SQL方言与Hive组件（HiveQL）在语法上高度兼容。...），连接操作，处理字符串、数字、日期的内建函数、聚合函数、子查询、in和between这样的比较操作符等。

1.9K2 0

你需要的不是实时数仓 | 你需要的是一款强大的OLAP数据库(下)

OLAP的目标是满足决策支持或多维环境特定的查询和报表需求，它的技术核心是"维"这个概念，因此OLAP也可以说是多维数据分析工具的集合。...Presto支持标准的ANSI SQL，包括复杂查询、聚合（aggregation）、连接（join）和窗口函数（window functions)。...STATS）提供窗口函数（聚合 OVER PARTITION, RANK, LEAD, LAG, NTILE等等）以支持高级分析功能支持使用磁盘进行连接和聚合，当操作使用的内存溢出时转为磁盘操作...、传统数据库要慢很多与其他的时序数据库类似，Druid在查询条件命中大量数据情况下可能会有性能问题，而且排序、聚合等能力普遍不太好，灵活性和扩展性不够，比如缺乏Join、子查询等。...借助MPP架构，在大型数据集上执行复杂SQL分析的速度比很多解决方案都要快。

3.4K3 0

【三歪教你些能装逼的】麒麟入门教程

由于每个公司的业务场景和背景不一样，每个OLAP框架的长处也不一样，所以现在有如此多的OLAP技术在发光发热......Kylin入门从前面我们已经知道为什么会出现如此多的OLAP的技术了，从本质上来说就是我们希望分析的数据可以让我们查得更快，而kylin是这些技术其中的一员。...官方已经帮我们解答了：定义数据集上的一个星形或雪花形模型在定义的数据表上构建cube 使用标准 SQL 通过 ODBC、JDBC 或 RESTFUL API 进行查询，仅需亚秒级响应时间即可获得查询结果...---- 我们去查kylin数据的时候，是已经被聚合过存放在HBase的，所以查询起来是相当快的，但是构建Cube这个过程其实是挺慢的（十几分钟到半小时都是正常的）。...Java3y 回复「888」领取1000+页原创电子书和思维导图。

1.3K1 0

Java开发者编写SQL语句时常见的10种错误

但是，当Java开发人员编写SQL语句时，一切都变得不同了。SQL是一种说明式语言，与面向对象思想和命令式思想无关。在SQL语言中，查询非常容易表达。但它也不是那么容易以最佳或最正确地方式编写出来。...以下是Java开发人员使JDBC或jOOQ编写SQL语句时，几种常见的错误(排名不分先后) 1.忘记了NULL 误解NULL的含义可能是Java开发人员编写SQL最常犯的错误。...要时刻明确NULL的含义，每次你写SQL时，都要考虑： · 对于NULL来说谓词是否正确? · NULL是否影响该函数的结果? 2.在Java内存中处理数据一些Java开发者十分了解SQL特性。...在没有对这些子句的支持下，但仍然有ROWNUM(Oracle)或ROW_NUMBER()OVER()(DB2，SQL Server 2008和更低版本)，这比在内存中分页要快得多。...抛开与运行条件的风险，你也许可以使用一个简单的MERGE语句来达到目的。 8.使用了聚合函数，而不是窗体功能引入窗函数之前，使用GROUPBY子句与投影聚合函数是汇总数据的唯一方式。

2.3K5 0

点击加载更多

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭