开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

当spark通过jdbc连接到kylin时，sql order by不起作用

当Spark通过JDBC连接到Kylin时，SQL的ORDER BY子句可能不起作用的原因是Kylin不支持在查询中使用ORDER BY子句。Kylin是一个分布式的OLAP引擎，旨在提供快速的多维分析查询。为了实现高性能的查询，Kylin会在构建立方体（Cube）时进行预计算和预聚合，以便在查询时快速返回结果。

由于Kylin的设计目标是快速查询，而不是排序和返回完整的结果集，因此它不支持在查询中使用ORDER BY子句。如果需要对查询结果进行排序，可以在Spark中使用DataFrame或Dataset的sort函数进行排序操作。

以下是一个示例代码片段，展示了如何在Spark中使用DataFrame对查询结果进行排序：

import org.apache.spark.sql.SparkSession

val spark = SparkSession.builder()
  .appName("Spark Kylin Example")
  .getOrCreate()

val jdbcDF = spark.read
  .format("jdbc")
  .option("url", "jdbc:kylin://<kylin_host>:<kylin_port>/<kylin_project>")
  .option("dbtable", "<table_name>")
  .option("user", "<username>")
  .option("password", "<password>")
  .load()

val sortedDF = jdbcDF.sort("column_name")

sortedDF.show()

在上述代码中，首先创建了一个SparkSession对象，然后使用spark.read.format("jdbc")方法从Kylin中读取数据。接下来，使用sort函数对DataFrame进行排序，其中"column_name"是需要排序的列名。最后，使用show函数展示排序后的结果。

需要注意的是，由于Kylin不支持ORDER BY子句，所以在处理大规模数据时，可能需要考虑使用其他方式来实现排序操作，例如使用分布式排序算法或将数据加载到内存中进行排序。

腾讯云提供了一系列与云计算相关的产品和服务，例如云数据库 TencentDB、云服务器 CVM、云原生容器服务 TKE、人工智能平台 AI Lab等。您可以根据具体需求选择适合的产品和服务。更多关于腾讯云产品的信息，请访问腾讯云官方网站：https://cloud.tencent.com/

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Apache Kylin原理与架构

SQL解析与查询优化，以及ODBC／JDBC驱动及REST API等多个模块。...这类接口也使得kylin很好的兼容tebleau甚至mondrian。查询引擎（Query Engine）:当cube准备就绪后，查询引擎就能够获取并解析用户查询。...kylin通常从hive中读取数据源，使用mapreduce作为cube构建引擎（目前也支持spark 不过是beta版本），并把预计算结果保存在HBase中，对外暴露Restful API／JDBC...mapreduce/spark计算生成Htable，最后将数据load到HBase表中。...4）：kylin对外接口 kylin对外提供了REST API 和 JDBC／ODBC，从而方便第三方web和基于sql的BI工具接入，比如superset，power bi等。

1.3K2 0

KIP-5：Apache Kylin深度集成Hudi

•当前无论输入格式是否为Hudi，Kylin都使用Beeline JDBC机制直接连接到Hive源•当前的实现无法利用Hudi的原生和高级功能（例如增量查询、读优化视图查询等），Kylin可以从较小的增量...Lake/Raw/Curated数据层中使用了Hudi•Hudi lib已经与Spark DF/Spark SQL集成，可以使用Kylin的Spark Engine查询Hudi数据源•Hudi的Parquet...基础文件和Avro日志以及索引元数据等都可以通过Hive的外部表和输入格式定义进行连接，Kylin可以利用它们进行提取 Hudi作为Cuboid存储 •新的方法•使用Hudi的原生增量视图查询优化Kylin...方式•为什么会成功•Hudi根据记录的PK支持upsert，每个cuboid的维度key-id都可以视为PK•这样当进行重建和合并操作时，它可以直接更新以前的cuboid文件，或基于PK合并多个cuboid...存储类型cube合并•使用Hudi upsert API合并2个cuboid文件 Reference Hudi framework: https://hudi.apache.org/docs/ hive/spark

5102 0

关于OLAP和OLTP你想知道的一切

ROLAP的劣势在于当数据量较大或query较为复杂时，查询性能无法像MOLAP那样稳定；所有计算都是即时触发，因此会耗费更多的计算资源，带来潜在的重复计算。...Kylin: Kylin是一种OLAP数据引擎，通过预计算的方式将用户设定的多维度数据立方体（cube）缓存起来，达到快速查询的目的。应用场景是针对复杂SQL join后的数据缓存。...当大量数据需要被频繁更新或者删除时，Elasticsearch的性能可能会受到影响。...单机存储容量受限：Elasticsearch的单机存储容量受限于硬件资源和节点数，当数据集增长到一定规模时，可能需要扩展集群来满足存储需求。...不适合多表连查：天然属性决定，Druid不支持多表连接不太适合粗筛阶段使用：这种情况下，一般都与类似于Spark这类的计算框架结合着来使用 Druid是一个用于快速、实时和批量查询的分布式列存储数据库

6.7K2 3

【三歪教你些能装逼的】麒麟入门教程

Kylin™是一个开源的、分布式的分析型数据仓库，提供Hadoop/Spark 之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由 eBay 开发并贡献至开源社区，它能在亚秒内查询巨大的表...（Hadoop/Spark/SQL/大数据这些词天天能看见，即便不懂它的原理，你都知道这些东西是有什么用，是用来干嘛的，对吧？）...官方已经帮我们解答了：定义数据集上的一个星形或雪花形模型在定义的数据表上构建cube 使用标准 SQL 通过 ODBC、JDBC 或 RESTFUL API 进行查询，仅需亚秒级响应时间即可获得查询结果...（上图）「雪花形模型」：当有一个或多个维度表没有直接连接到事实表上，而需要通过其他维表连接到事实表（下图） ? 在kylin里，分析数据的角度叫做「维度」，被分析的指标叫做「度量」 ?...，可以通过JDBC/RESTful的方式来获取数据。

1.1K1 0

Apache Kylin v2.5.0正式发布，开源分布式分析引擎

Apache Kylin 是一个开源的分布式分析引擎，旨在为极大数据集提供 SQL 接口和多维分析（OLAP）的能力。...过去，Kylin 只按分区列 (partitiondate column) 的值进行 Segment 的修剪。如果查询中没有将分区列作为过滤条件，那么修剪将不起作用，会扫描所有 Segment。...更多详情请查看：KYLIN-3370 。在 YARN 上合并字典当 Segment 合并时，它们的词典也需要合并。...如果去重列具有非常高的基数，则 GD 可能非常大，在 Cube 构建阶段，Kylin 需要通过 GD 将非整数值转换为整数，尽管 GD 已被分成多个切片，可以分开加载到内存，但是由于去重列的值是乱序的，...当存在 COUNTDISTINCT，TOPN 的度量时，因为它们的大小是灵活的，因此估计值可能跟真实值有很大偏差。在过去，用户需要调整若干个参数以使尺寸估计更接近实际尺寸，这对普通用户有点困难。

7105 0

Kylin 是什么?

Kylin 生态圈 Apache Kylin™ 概览 Apache Kylin™是一个开源的、分布式的分析型数据仓库，提供Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据...1定义数据集上的一个星形或雪花形模型 2在定义的数据表上构建cube 3使用标准 SQL 通过 ODBC、JDBC 或 RESTFUL API 进行查询，仅需亚秒级响应时间即可获得查询结果 Kylin...可扩展超快的基于大数据的分析型数据仓库: Kylin 是为减少在 Hadoop/Spark 上百亿规模数据查询延迟而设计 Hadoop ANSI SQL 接口: 作为一个分析型数据仓库(也是 OLAP...引擎)，Kylin 为 Hadoop 提供标准 SQL 支持大部分查询功能交互式查询能力: 通过 Kylin，用户可以与 Hadoop 数据进行亚秒级交互，在同样的数据集上提供比 Hive 更好的性能...多维立方体（MOLAP Cube）: 用户能够在 Kylin 里为百亿以上数据集定义数据模型并构建立方体实时 OLAP： Kylin 可以在数据产生时进行实时处理，用户可以在秒级延迟下进行实时数据的多维分析

6961 0

如何在CDH中部署及使用Kylin

，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay开发并贡献至开源社区。...具体功能如下： 1.可扩展超快OLAP引擎: - Kylin是为减少在Hadoop/Spark上百亿规模数据查询延迟而设计 2.Hadoop ANSI SQL 接口: - Kylin为Hadoop提供标准...SQL支持大部分查询功能 3.交互式查询能力: - 通过Kylin，用户可以与Hadoop数据进行亚秒级交互，在同样的数据集上提供比Hive更好的性能 4.多维立方体（MOLAP Cube）: - 用户能够在.../ hdfs dfs -put employee.csv /tmp/data/kylin/ beeline -u "jdbc:hive2://hadoop2.macro.com:10000/default...推荐关注Hadoop实操，第一时间，分享更多Hadoop干货，欢迎转发和分享。原创文章，欢迎转载，转载请注明：转载自微信公众号Hadoop实操

2.2K6 1

Apache Kylin 历险记

Kylin 概述 1.1 Kylin 定义 Apache Kylin(麒麟)是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由...1.3.9 星型模型当所有维表都直接连接到事实表上时，整个图解就像星星一样，故将该模型称为星型模型。该模型通过大量的冗余来提升查询效率，对OLAP场景较友好。...1.3.10 雪花模型当有一个或多个维表没有直接连接到事实表上，而是通过其他维度表连接到事实表上时，其图解就像多个雪花连接在一起，故称雪花模型。该模型在MySQL、Oracle中常见。...另外可以通过Restful接口实现SQL查询。 2.1.2 查询引擎（Query Engine）当Cube准备就绪后，查询引擎就能够获取并解析用户查询。...2.3 Kylin 入手 2.3.1 Kylin 安装 Kylin 是依赖于Hadoop、HBase、Zookeeper、Spark的，所以安装时需确保所有的前置依赖是OK的。

6003 0

什么是麒麟(kylin)？查数据贼快的哟

从官方我们可以看到对kylin的介绍：Apache Kylin™是一个开源的、分布式的分析型数据仓库，提供Hadoop/Spark 之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由...（Hadoop/Spark/SQL/大数据这些词天天能看见，即便不懂它的原理，你都知道这些东西是有什么用，是用来干嘛的，对吧？）...官方已经帮我们解答了：定义数据集上的一个星形或雪花形模型在定义的数据表上构建 cube 使用标准 SQL 通过 ODBC、 JDBC 或...（上图）「雪花形模型」：当有一个或多个维度表没有直接连接到事实表上，而需要通过其他维表连接到事实表（下图） image.png 在kylin里，分析数据的角度叫做「维度」，被分析的指标叫做「度量」 image.png...（虽然图上的都是三维，但你构建的Cube可以远超三维） kylin就是在Cube这个立方体来获取数据的，从官方的说法也很明确，可以通过JDBC/RESTful的方式来获取数据。

1.1K2 0

主流的 OLAP 引擎介绍 - OLAP极简教程

但是ROLAP也存在着劣势，那就是当数据量较大或 query 较为复杂时，查询性能也无法像 MOLAP 那样稳定。...当查询聚合性数据的时候，使用MOLAP 技术；当查询明细数据时，使用 ROLAP 技术。在给定使用场景的前提下，以达到查询性能的最优化。...需要与现场确认是否能提供提供 jdbc 接口和 sql 执行引擎，可以与现有系统集成 druid druid 同 kylin 一样，是采用预计算的方式。...；jdbc/odbc 接口，rest 服务应用思路：将 hive 中的数据按照查询列构建成 cube，存储到 hbase 中，数据轨迹连接 kylin 的 jdbc 接口实现快速查询。...对于搜索类的查询效果较好，但当数据量较大或进行扫描聚合类查询时，查询性能会有较大影响。

8.6K2 2

OLAP组件选型

OLAP组件选型一、OLAP简介 1、olap准则 2、OLAP场景的关键特征 3、与oltp比较二、开源引擎 1、Hive 2、spark SQL 3、presto 4、kylin 5、impala...SQL提供了一个通用的方式来访问各式各样的数据源，包括Hive, Avro, Parquet, ORC, JSON, and JDBC。Hive兼容性极好。...但Presto由于是基于内存的，而hive是在磁盘上读写的，因此presto比hive快很多，但是由于是基于内存的计算当多张大表关联操作时易引起内存溢出错误。...提供计算统计信息（COMPUTE STATS）提供窗口函数（聚合 OVER PARTITION, RANK, LEAD, LAG, NTILE等等）以支持高级分析功能支持使用磁盘进行连接和聚合，当操作使用的内存溢出时转为磁盘操作...GPDB完全支持ANSI SQL 2008标准和SQL OLAP 2003 扩展；从应用编程接口上讲，它支持ODBC和JDBC。完善的标准支持使得系统开发、维护和管理都大为方便。

2.8K3 0

「EMR 开发指南」之 Kylin 快速构建 Cube

Kylin的核心功能是通过预计算技术将大规模数据集转化为多维数据立方体，从而实现亚秒级查询响应时间。此外，Kylin还支持SQL接口和多种BI工具，使得数据分析变得更加简便。...group by part_dt order by part_dt预先对YARN开启SPARK动态调度YARN：修改配置 yarn-site.xml变更类型配置值变更前变更后修改yarn.nodemanager.aux-servicesmapreduce_shufflemapreduce_shuffle...这些属性当运行提交 Spark job 时会被提取并应用；例如，如果您配置 “kylin.engine.spark-conf.spark.executor.memory=4G”，Kylin 将会在执行...“spark-submit” 操作时使用 “–conf spark.executor.memory=4G” 作为参数。...当 Kylin 执行这一步时，您可以监视 Yarn 资源管理器里的状态.

3772 0

2015.5 技术雷达 | 平台篇

作为一种通用的数据处理平台，它使许多更高级别的工具的开发成为可能，如交互式SQL（Spark SQL），实时流媒体（Spark Streaming），机器学习库（MLib），R-on-Spark等。...Apache Kylin (kylin.io)，是一个来自 eBay 公司的开源数据分析解决方案，它能够在超大数据集上进行基于 SQL 的多维度分析（OLAP）。...你可以使用 Kylin 所提供的立方体设计器来定义立方体，并启动一个离线进程来构建它们。离线进程会进行一个预连接的步骤，将事实表和维度表连接到一个扁平化的结构中。...当 Oracle 决定停止对 Sun 公司的 OpenSSO（一个开源的访问管理平台）进行开发时，ForgeRock 决定接管它并将它集成进他们的 Open Identity Suite 中。...Spark 是基于云的互联设备全栈解决方案，Spark Photon 是一个带 wifi 模块的微控制器，而 Spark electron 是连接到移动网络的变体。

1.2K5 0

Kylin使用Spark构建Cube

Apache Kylin™是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。...-2.6.3-bin-hbase1x【官网下载】 spark-2.3.2【$KYLIN_HOME/spark 通过$KYLIN_HOME/bin/download-spark.sh下载】 spark-2.3.2.../default ##kylin.query.pushdown.jdbc.driver=org.apache.hive.jdbc.HiveDriver ##kylin.query.pushdown.jdbc.username...=8 ##kylin.query.pushdown.jdbc.pool-min-idle=0 # #### JDBC Data Source ##kylin.source.jdbc.connection-url...= ##kylin.source.jdbc.driver= ##kylin.source.jdbc.dialect= ##kylin.source.jdbc.user= ##kylin.source.jdbc.pass

2K2 0

一站式大数据解决方案分析与设计实践 | BI无缝整合Apache Kylin

列式存储则将记录按列存放，这样做不仅可以在访问时只读取需要的列，还可以利用存储设备擅长连续读取的特点，大大提高读取的速率。这两项关键技术使得Hadoop上的SQL查询速度从小时提高到了分钟级。...Apache Kylin是一个开源的、分布式的分析型数据仓库，提供Hadoop/Spark/Flink 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据，通过预计算它能在亚秒内查询巨大的表...Rest Server：当前kylin采用的REST API、JDBC、ODBC接口提供web服务。...当维表小于300M时推荐启用，可以简化Cube计算提高效率。 CUBE配置 ?...Kylin提供了灵活的前端连接方式，包括Rest API、JDBC和ODBC。用户可以根据需要查询访问。存储引擎基于Apache Kylin较强可伸缩性的插件架构实现数据库存储接入。 ?

8882 0

一站式大数据解决方案分析与设计实践：BI无缝整合Apache Kylin

列式存储则将记录按列存放，这样做不仅可以在访问时只读取需要的列，还可以利用存储设备擅长连续读取的特点，大大提高读取的速率。这两项关键技术使得Hadoop上的SQL查询速度从小时提高到了分钟级。...Apache Kylin是一个开源的、分布式的分析型数据仓库，提供Hadoop/Spark/Flink 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据，通过预计算它能在亚秒内查询巨大的表...Rest Server：当前kylin采用的REST API、JDBC、ODBC接口提供web服务。...API规范，相当于JDBC关系数据库) 附注1：数据应用，包括智能报告、支持生成SQL或多维分析查询MDX语句组件、托拉拽自助式分析可视化组件等 Mondrian Schema，数据多维分析模型...当维表小于300M时推荐启用，可以简化Cube计算提高效率。

9511 0

你需要的不是实时数仓 | 你需要的是一款强大的OLAP数据库(下)

Spark SQL对熟悉Spark的同学来说，很容易理解并上手使用：相比于Spark RDD API，Spark SQL包含了对结构化数据和在其上运算的更多信息，Spark SQL使用这些信息进行了额外的优化...但Presto由于是基于内存的，而hive是在磁盘上读写的，因此presto比hive快很多，但是由于是基于内存的计算当多张大表关联操作时易引起内存溢出错误。 ?...提供计算统计信息（COMPUTE STATS）提供窗口函数（聚合 OVER PARTITION, RANK, LEAD, LAG, NTILE等等）以支持高级分析功能支持使用磁盘进行连接和聚合，当操作使用的内存溢出时转为磁盘操作...GPDB完全支持ANSI SQL 2008标准和SQL OLAP 2003 扩展；从应用编程接口上讲，它支持ODBC和JDBC。完善的标准支持使得系统开发、维护和管理都大为方便。...，Hawq，Impala - 基于SQL on Hadoop Presto和Spark SQL类似 - 基于内存解析SQL生成执行计划 Kylin - 用空间换时间，预计算 Druid - 一个支持数据的实时摄入

1.7K2 0

大数据OLAP系统（2）——开源组件篇

2.1 开源MOLAP系统分析 2.1.1 Kylin Apache Kylin 是一个开源的分布式分析引擎，提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据...Kylin的核心思想是预计算，理论基础是：以空间换时间。即将多维分析可能用到的度量进行预计算，将计算好的结果保存成Cube并存储到HBase中，供查询时直接访问。...，Kylin 的元数据和 Cube 都存储在 HBase 中，存储的格式是 json 字符串； Cube Build Engine：所有模块的基础，它主要负责 Kylin 预计算中创建 Cube，创建的过程是首先通过...内存：两者都是内存存储和计算，当它无法获得足够的内存时，spark会将数据写入磁盘，但presto会导致OOM。容错：如果Spark任务失败或数据丢失，它将重新计算。...类SQL：类似SQL语法，内置大量函数。可扩展：自定义存储格式，自定义函数。多接口：Beeline，JDBC，ODBC，Python，Thrift。

2.3K4 0

Apache Kylin 概览

通过使用多个聚合组，可以大大降低 Cube 中 Cuboid 数量。...比如，[Group by A, B]的结果，可以基于[Group by A, B, C]的结果，通过去掉C后聚合得来的；这样可以减少重复计算；当 0 维度Cuboid计算出来的时候，整个Cube...仅当 Cube 中不存在任何 Segment，或者不存在任何未完成的构建任务时，Kylin 才接受 Cube 上新的构建任务。...查询 Kylin 的查询语言的标准 SQL 的 SELECT 语句（仅支持 SELECT，其他 DDL、DML 均不支持），这是为了获得与大多数 BI 系统和工具无缝集成，比如下面是一个典型的查询 SQL...及其他连接方式 JDBC 连接 url 格式： jdbc:kylin://:/kylin_project_name> 如果“ssl”为true，“port”应该是Kylin

1.8K2 0

大数据架构系列：Apache Kylin 4.0

用户可以通过JDBC/ODBC或者REST API的方式进行访问。...当前版本支持在没命中Cube时，直接查询原始数据；不支持将一条SQL拆成部分查询Cube数据，部分查询原始数据。...Cube查询在我们费力将Cube数据构建好之后，我们就可以使用Sql进行查询；当然不需要直接去查询Cube数据，我们可以还是写查询原始表数据的Sql，Kylin会将Sql改写优化命中Cube的部分Cuboid...查询详细流程图片用户使用JDBC/ODBC或者REST API的方式发送一条查询SQL到Kylin的REST Server。...通过Spark的DataSet执行完结果后返回Enumerable迭代类型数据。

1.2K3 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭