开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何在Kerberos中使用Apache Spark查询Hive表？

在Kerberos中使用Apache Spark查询Hive表，需要进行以下步骤：

配置Kerberos认证：首先，确保已经正确配置了Kerberos认证，并且Spark集群中的所有节点都能够与Kerberos服务器进行通信。这包括配置Kerberos客户端和服务端，生成和分发Kerberos凭证等。
配置Spark与Hive的集成：在Spark的配置文件中，设置与Hive集成所需的参数。主要包括设置Hive Metastore的URI、Hive Warehouse目录的位置等。
提供Kerberos凭证：为了在Spark中使用Kerberos认证，需要提供Kerberos凭证。可以通过以下两种方式之一来实现： a. 在Spark提交任务时，通过--keytab和--principal参数指定Keytab文件和Principal名称。 b. 在代码中使用UserGroupInformation类手动提供Kerberos凭证。
创建SparkSession：在代码中，使用SparkSession来创建与Spark集群的连接。可以通过设置spark.hadoop.hive.metastore.sasl.enabled参数为true来启用Kerberos认证。
查询Hive表：使用SparkSession创建的Spark连接，可以直接使用Spark SQL来查询Hive表。例如，可以使用spark.sql("SELECT * FROM <database>.<table>")来查询Hive表中的数据。

总结：在Kerberos中使用Apache Spark查询Hive表，需要先配置Kerberos认证，然后配置Spark与Hive的集成，提供Kerberos凭证，创建SparkSession，最后使用Spark SQL进行查询。这样可以实现在Kerberos环境下安全地访问和查询Hive表。

腾讯云相关产品推荐：腾讯云提供了一系列与云计算和大数据相关的产品，其中包括云服务器、云数据库、云存储、人工智能等。在使用Spark查询Hive表时，可以考虑使用腾讯云的云服务器（CVM）作为Spark集群的计算资源，使用云数据库（TDSQL）作为Hive Metastore和数据存储，使用云存储（COS）作为Hive表的存储介质。此外，腾讯云还提供了人工智能相关的产品，如腾讯云机器学习平台（Tencent Machine Learning Platform）和腾讯云智能图像处理（Tencent Intelligent Image Processing），可以与Spark集成，实现更多的数据处理和分析功能。

更多关于腾讯云产品的介绍和详细信息，可以参考腾讯云官方网站：https://cloud.tencent.com/

相关搜索:如何在Hive内部表中插入Spark DataFrame？spark streaming +查询每个流批次中的hive表？如何在Spark中获取hive表的分区信息使用Hive表的spark中的FP增长算法如何使用Spark SQL识别hive表中的分区列如何使用Apache Spark JavaRDDs在MongoDB中查询？如何在Spark SQL中使用快速压缩将数据写入hive表 Spark不使用Hive分区外部表中的分区信息如何在色调查询中执行hivesql后停止'hive on spark‘作业如何在EMR中通过spark授予Jupyterhub访问hive表的权限如何在水平输出中查询Hive表的垂直列无法使用Spark在Apache Iceberg的表中写入数据重构Impala/Hive中的查询，该查询使用子查询在表中创建新列如何使用apache spark在mysql数据库中创建表如何在使用pyspark时访问hive表中的注释？如何在spark shell中的Apache Spark2.2中使用s3 使用spark.sql的任何表的select查询有时不给出记录，但在HIVE CLI中给出相同的select查询结果如何在Spark 1.6中使用SQL子查询使用TableProvider生成表并在Apache Beam中运行SQL查询如何使用Spark中现有dataframe列中的数据查询表？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

0644-5.16.1-如何在CDH5中使用Spark2.4 Thrift

Fayson在前面的文章中介绍过什么是Spark Thrift，Spark Thrift的缺陷，以及Spark Thrift在CDH5中的使用情况，参考《0643-Spark SQL Thrift简介》。

03

0645-6.2.0-为什么我在CDH6上使用Spark2.4 Thrift失败了

Fayson在前面的文章中介绍过什么是Spark Thrift，Spark Thrift的缺陷，以及Spark Thrift在CDH5中的使用情况，参考《0643-Spark SQL Thrift简介》。

03

0643-Spark SQL Thrift简介

这是一个复杂的历史，基本上是一个“忒修斯船”(Ship of Theseus)的故事。最开始的时候，Spark SQL的代码几乎全部都是Hive的照搬，随着时间的推移，Hive的代码被逐渐替换，直到几乎没有原始的Hive代码保留。

03

如何在启用Kerberos的CDH中部署及使用Kylin

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 我们在前面的文章简单介绍过Apache Kylin，请参考《如何在CDH中部署及使用Kylin》，文章中包含了如何在CDH上部署Kylin，以及创建cube，然后进行查询的两个demo例子。但对于CDH的生产系统，往往都会部署配置安全多租户，即Kerberos+Sentry，当C

03

如何在Kerberos的CDH使用Sentry实现Spark SQL的权限控制

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在前面的文章Fayson介绍了《如何在Kerberos环境下的CDH集群部署Spark1.6 Thrift及spark-sql客户端》。本文主要介绍当集群启用Kerberos和Sentry后，如何实现Spark SQL的权限管理。因为社区版Spark SQL并未做任何权限控制。

02

CDP中的Hive3系列之保护Hive3

作为管理员，您需要了解运行 Hive 查询的 Hive 默认授权是不安全的，以及您需要做什么来保护您的数据。您需要了解您的安全选项：设置 Ranger 或基于存储的授权 (SBA)，它基于模拟和 HDFS 访问控制列表 (ACL)，或这些方法的组合。

03

如何使用java连接Kerberos和非kerberos和kerberos的Spark1.6 ThriftServer

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 前面Fayson介绍了《如何在CDH中启用Spark Thrift》和《如何在Kerberos环境下的CDH集群部署Spark1.6 Thrift及spark-sql客户端》，本篇文章Fayson主要介绍如何使用Java JDBC连接非Kerberos和Kerberos环境下Sp

02

0874-7.1.7-如何在CDP集群为Spark3集成Iceberg

1.文档编写目的 Iceberg是一种开放的数据湖表格式，您可以借助Iceberg快速地在HDFS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。本篇文章主要介绍如何在Apache Spark3环境下集成Iceberg并使用，Iceberg使用Apache Spark的DataSourceV2 API来实现Data Source和Catalog。Spark DSv2是一个不断更新迭代的API，在不同的Spark版本中支持的程度也不

04

hive面试必备题

Hive存储的是逻辑上的数据仓库信息，包括表的定义、数据的存储位置（HDFS路径）、分区和表的元数据等。实际的数据文件存储在HDFS上，Hive通过HQL（Hive Query Language）实现对这些数据的SQL-like查询，本质上是将SQL查询转换为MapReduce任务在Hadoop上执行。

01

如何在Hue中添加Spark Notebook

CDH集群中可以使用Hue访问Hive、Impala、HBase、Solr等，在Hue3.8版本后也提供了Notebook组件（支持R、Scala及python语言），但在CDH中Hue默认是没有启用Spark的Notebook，使用Notebook运行Spark代码则依赖Livy服务。在前面Fayson也介绍了《Livy，基于Apache Spark的开源REST服务，加入Cloudera Labs》、《如何编译Livy并在非Kerberos环境的CDH集群中安装》、《如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业》、《如何在Kerberos环境的CDH集群部署Livy》、《如何通过Livy的RESTful API接口向Kerberos环境的CDH集群提交作业》、《如何打包Livy和Zeppelin的Parcel包》和《如何在CM中使用Parcel包部署Livy及验证》，本篇文章Fayson主要介绍如何在Hue中添加Notebook组件并集成Spark。

03

0698-6.2.0-Navigator审计日志查看对应用户的操作

CDH集群中有数据管理的组件Cloudera Navigator，本文档主要介绍这个组件的其中一个功能：审计，Cloudera Navigator审计可以从选定的集群服务收集一些事件，用户可以在控制台查看这些审计的日志，可以使用可配置的过滤器进行搜索，快速得到相关的信息，并且可以将这些信息导出为CSV或JSON文件。下面会对审计功能的使用进行一些测试。

05

0718-6.3.0-CDH6.3的新功能

你现在可以在Cloudera Enterprise 6.3中使用OpenJDK 11，在集群中安装OpenJDK 11时，默认使用G1GC为CDH大多数服务作为垃圾回收机制，这可能需要进行调优以避免内存过量使用。

02

Spark2Streaming读Kerberos环境的Kafka并写数据到Hive

在前面的文章Fayson介绍了一些关于Spark2Streaming的示例如《Spark2Streaming读Kerberos环境的Kafka并写数据到HBase》和《Spark2Streaming读Kerberos环境的Kafka并写数据到Kudu》，本篇文章Fayson主要介绍如何使用Spark2Streaming访问Kerberos环境的Kafka并将接收到的Kafka数据写入Hive.

04

非Kerberos环境下Hive2.2.0 On Tez集成

在前面的文章《如何在CDH集群中安装Hive2.3.3》、《如何为Hive2启用Kerberos认证》及《Hive2.2.0如何与CDH集群中的Spark1.6集成》Fayson介绍了Hive2的安装与Spark集成以及如何启用Kerberos，本篇文章Fayson主要介绍如何在非Kerberos环境下为Hive2.2.0配置Tez计算引擎。

02

0481-如何从HDP2.6.5原地升级到CDH6.0.1

编写本文主要是因为Fayson在上篇文章《0480-如何从HDP2.6.5原地迁移到CDH5.16.1》迁移失败的补充，为什么迁移失败是因为HDP2.6.5的Hadoop版本2.7.5比C5的2.6要高导致的，HDFS只支持升级，而不支持降级。

02

0648-6.2.0-配置Senty服务

登录Cloudera Manager的用户的最小角色要求：Configurator或者Cluster Administrator或者Full Administrator。

04

Java代码连接带kerberos的Impala集群

目前impala的认证方式支持两种：用户名密码和kerberos，由于impala的表数据一般是存在HDFS上的，所以很多时候，impala集群也会开启kerberos的认证，初次新接入Impala的小伙伴，可能会对kerberos比较头疼，这里将通过一个简单的例子来告诉大家，如何在代码中访问带kerberos的impala集群。废话不多说，直接上代码：

03

如何在Kudu1.5中使用Sentry授权

Fayson在之前的文章详细介绍了CDH5.13的新功能，参考《CDH5.13和CM5.13的新功能》。CDH5.13中默认打包了Kudu，我们在安装Kudu的时候再也不用单独下载Kudu的Parcel包，与其他组件一样直接增加服务即可。另外这个版本Kudu1.5支持Sentry的database，table以及column的SELECT/INSERT授权，旧的版本只能支持数据库或表的全部授权，不能区分SELECT和INSERT，且不支持列授权。

08

CDP的HWC授权

您配置 Hive 仓库连接器 (HWC) 的方式会影响查询授权过程和您的安全性。有多种方法可以通过 HWC 访问 Hive，并不是所有操作都通过 HiveServer (HS2)。一些操作，例如 Spark Direct Reader 和 Hive Streaming，通过 HMS 直接进入 Hive，其中通常适用基于存储的权限。

01

如何在Kerberos环境下的CDH集群部署Spark2.1的Thrift及spark-sql客户端

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在前面的文章Fayson介绍了《如何在CDH中启用Spark Thrift》,《如何在Kerberos环境下的CDH集群部署Spark1.6 Thrift及spark-sql客户端》，《如何在Kerberos环境下的CDH集群部署Spark2.1的Thrift及spark-sql

05

0914-7.1.7-如何用Doris创建Hive和Iceberg Catalog

Doris支持多源数据目录（Multi-Catalog）功能，旨在能够更方便对接外部数据目录，以增强Doris的数据湖分析和联邦数据查询能力。Multi-Catalog 功能在原有的元数据层级上，新增一层Catalog，构成 Catalog -> Database -> Table 的三层元数据层级。其中，Catalog 可以直接对应到外部数据目录。目前支持的外部数据目录包括：Apache Hive， Apache Iceberg 以及标准的JDBC接口(如MySQL)等

01

将Hive数据迁移到CDP

使用Replication Manager 将 Hive 数据迁移到 CDP 后，您可能需要执行其他任务。您需要了解 Hive 3.x 和更早版本之间的语义差异。其中一些差异要求您更改 Hive 脚本或工作流程。此外，您需要将使用 CDP 不支持的 Hive CLI 的脚本转换为 Beeline。

03

0538-5.15.0-Spark2 KuduContext访问Kudu

在集群中访问Kudu的方式有多种，可以通过Impala使用JDBC的方式，也可以通过Kudu提供的Client API方式，参考Fayson前面的文章《如何使用Java API访问CDH的Kudu》和《如何使用Java代码访问Kerberos环境下的Kudu》。在做Spark开发时也有访问Kudu的需求，Kudu API访问是一种方式，这里Fayson使用KuduContext实现对Kudu的读写操作。

04

如何在Kerberos环境下的CDH集群部署Spark1.6 Thrift及spark-sql客户端

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在前面的文章Fayson介绍了《如何在CDH中启用Spark Thrift》，本篇文章Fayson主要介绍如何在Kerberos环境下的CDH集群中部署Spark1.6的Thrift Server服务和Spark SQL客户端。内容概述 1.部署Spark Thrift 2.启

04

Hortonworks正式发布HDP3.0

7月13日，Hortonworks在其官网宣布发布HDP3.0，包括Ambari2.7和SmartSense1.5。包括下载仓库与配套文档都正式GA。

03

CDH5.15和CM5.15的新功能

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 Fayson在2018年的1月26日介绍了《CDH5.14和CM5.14的新功能》，今天6月15日，Cloudera正式发布了CDH5.15。从5.14到5.15，差不多等待了4个半月的时间，本次更新比以往晚了快2个月的时间。当然Cloudera在中间发布了CDH6的Beta版，参考《Cloudera En

02

如何在CDH中部署及使用Kylin

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github：https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢

06

0805-CDH5中的Parquet迁移至CDP中兼容性验证

因为CDH5中的Parquet版本为1.5，而CDP7中的Parquet版本为1.10，我们在从CDH5升级到CDP7后，无论是原地升级还是迁移升级，都可能会碰到一个问题，以前在CDH5中使用Hive/Impala生成的低版本Parquet文件还能继续在CDP7中使用吗。本文主要描述将CDH5中的Parquet文件传输到CDP7环境中，使用CDP7中的Hive，Impala，Spark确认能否继续访问这些文件。

01

Hadoop/Spark生态圈里的新气象

令人惊讶的是，Hadoop在短短一年的时间里被重新定义。让我们看看这个火爆生态圈的所有主要部分，以及它们各自具有的意义。对于Hadoop你需要了解的最重要的事情就是，它不再是原来的Hadoop。这

05

如何在 CDP 的湖仓一体中使用Iceberg

2022 年 6 月，Cloudera宣布在 Cloudera 数据平台 (CDP) 中全面推出 Apache Iceberg。Iceberg 是一种 100% 开放表格式，由Apache Software Foundation开发，可帮助用户避免供应商锁定并实现开放式 Lakehouse。

01

0845-7.1.6-集群外配置Kerberos环境的Gateway节点

在使用CDH/CDP集群过程中会遇到在集群外的节点使用Hadoop命令访问集群（如：HDFS、HBASE、HIVE、SPARK、YARN）等命令操作，这时又不想将该节点添加到CDH/CDP集群中管理，本篇文章主要介绍如何在集群外节点不通过CM部署一个Gateway节点。

02

【大数据安全】Apache Kylin 安全配置(Kerberos)

本文首先会简单介绍Kylin的安装配置，然后介绍启用Kerberos的CDH集群中如何部署及使用Kylin。

03

0682-Cloudera Enterprise 6.3.0发布

Cloudera于7月31日宣布正式发布CDH6.3，此版本提供了许多新功能，改进了可用性，性能提升以及对更现代的Java和身份管理基础设施软件的支持(Free IPA)。

03

0873-7.1.7-如何在CDP集群中安装Spark3

1.文档编写目的在早些时间Cloudera已正式的发布CDS3《0814-基于CDP7.1.3的Spark3.0正式发布》。在CDP私有云基础上，Spark3服务与现有的Spark2服务共存，两个服务的配置不冲突，可以共用共一个Yarn服务。Spark History服务的端口是Saprk2的18088和Spark3的18089。CDS3.2在支持GPU的同时，也引入了RAPIDS Accelerator for Apache Spark来加速CDP集群上Apache Spark3的性能。本篇文章主要介绍

05

0487-CDH6.1的新功能

北京时间2018年12月19日，Cloudera正式发布Cloudera Enterprise 6.1.0，上次发布CDH6.0是8月30日，差不多过去了3个多月的时间，参考Fayson之前的文章《Cloudera Enterprise 6正式发布》。从CDH6.0到CDH6.1是一次minor version的更新，但更新内容较多，在开始接下来的细化功能讨论前，我们先看看几项重点更新的内容：

04

腾讯云EMR&Elasticsearch中使用ES-Hadoop之MR&Hive篇

腾讯云EMR&Elasticsearch中使用ES-Hadoop之MR&Hive篇

08

CDP-DC中部署Knox

Apache Knox网关（“ Knox”）是一种在不降低Hadoop安全性的情况下将Apache™Hadoop®服务的覆盖范围扩展到Hadoop群集之外的用户的系统。Knox还为访问群集数据和执行作业的用户简化了Hadoop安全性。Knox网关被设计为反向代理。

03

如何在Kerberos环境下使用Spark2通过JDBC访问Impala

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在前面Fayson介绍了在Kerberos和非Kerberos环境下使用JAVA通过JDBC访问Hive和Impala《如何使用java代码通过JDBC连接Hive》和《如何使用java代码通过JDBC连接Impala》，本篇文章Fayson主要介绍如何在Kerberos环境下使

02

新数仓系列：Hbase周边生态梳理（1）

本文简单梳理下其中一个应用比较广的HBASE的生态，可能不全，有更多的请大家留言。具体HBASE的基本原理扫描大家可以自行百度下，另外，要系统掌握HBASE，推荐看下《HBASE权威指南》。 1 Kerberos 什么是Kerberos？ Kerberos is a network authentication protocol. It is designed to provide strong authentication for client/server applications by using s

07

Spark SQL实战(08)-整合Hive

Apache Spark 是一个快速、可扩展的分布式计算引擎，而 Hive 则是一个数据仓库工具，它提供了数据存储和查询功能。在 Spark 中使用 Hive 可以提高数据处理和查询的效率。

05

使用FreeIPA为CDP DC集群部署安全

Cloudera从CM6.3版本开始，引入了Red Hat IdM来做整个集群的认证，Red Hat IdM对应的软件为FreeIPA，在本文中描述如何使用FreeIPA来做CDH集群的认证。关于FreeIPA服务器搭建参考<使用FreeIPA对Linux用户权限统一管理>。

01

如何在Kerberos环境下的CDH集群部署Spark2.1的Thrift及spark-sql客户端

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在前面的文章Fayson介绍了《如何在CDH中启用Spark Thrift》和《如何在Kerberos环境下的CDH集群部署Spark1.6 Thrift及spark-sql客户端》，本篇文章Fayson主要介绍如何在非Kerberos环境下的CDH集群中部署Spark2.1的T

03

4.如何为Hive集成RedHat7的OpenLDAP认证

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github：https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在前面的文章Fayson讲了《1.如何在RedHat7上安装OpenLDA并配置客户端》、《2.如何在RedHat7中实现OpenLDAP集成SSH登录并使用sssd同步用户》以及《3.如何RedHat7上实现OpenLDAP的主主同步》，在CDH中各个组件如何集成？本篇文章主要介

08

spark学习笔记：spark sql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

01

在AWS Glue中使用Apache Hudi

AWS Glue是Amazon Web Services(AWS)云平台推出的一款无服务器(Serverless)的大数据分析服务。对于不了解该产品的读者来说，可以用一句话概括其实质：Glue是一个无服务器的全托管的Spark运行环境，只需提供Spark程序代码即可运行Spark作业，无需维护集群。

04

【Spark研究】用Apache Spark进行大数据处理第二部分：Spark SQL

在Apache Spark文章系列的前一篇文章中，我们学习了什么是Apache Spark框架，以及如何用该框架帮助组织处理大数据处理分析的需求。 Spark SQL，作为Apache Spark大数据框架的一部分，主要用于结构化数据处理和对Spark数据执行类SQL的查询。通过Spark SQL，可以针对不同格式的数据执行ETL操作（如JSON，Parquet，数据库）然后完成特定的查询操作。在这一文章系列的第二篇中，我们将讨论Spark SQL库，如何使用Spark SQL库对存储在批处理文件、JSO

用 Apache NiFi、Kafka和 Flink SQL 做股票智能分析

本文是关于如何在实时分析中使用云原生应用程序对股票数据进行连续 SQL 操作的教程。

03

如何禁用CDH集群Kerberos

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github：https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- Fayson在前面的文章介绍了如何为CDH集群启用Kerberos，在集群启用Kerberos后，会对现有环境的部分代码做改造，有些人觉得使用起来不方便，想取消Kerberos。本篇文章Fayson主要介绍如何禁用CDH集群的Kerberos及禁用后对各组件服务的测试。注意：本文

06

CDH5.13和CM5.13的新功能

CDH5.13在美国时间10月12日正式发布，距离上次CDH5.12的7月16日，相距差不多3个月的时间，这也是Cloudera发布CDH的minor version的一般时间间隔。让我们先概括一下新功能：

Iceberg 实践 | B 站通过数据组织加速大规模数据分析

交互式分析是大数据分析的一个重要方向，基于TB甚至PB量级的数据数据为用户提供秒级甚至亚秒级的交互式分析体验，能够大大提升数据分析人员的工作效率和使用体验。限于机器的物理资源限制，对于超大规模的数据的全表扫描以及全表计算自然无法实现交互式的响应，但是在大数据分析的典型场景中，多维分析一般都会带有过滤条件，对于这种类型的查询，尤其是在高基数字段上的过滤查询，理论上可以在读取数据的时候跳过所有不相关的数据，只读取极少部分需要的数据，这种技术一般称为Data Clustering以及Data Skipping。Data Clustering是指数据按照读取时的IO粒度紧密聚集，而Data Skipping则根据过滤条件在读取时跳过不相干的数据，Data Clustering的方式以及查询中的过滤条件共同决定了Data Skipping的效果，从而影响查询的响应时间，对于TB甚至PB级别的数据，如何通过Data Clustering以及Data Skipping技术高效的跳过所有逻辑上不需要的数据，是能否实现交互式分析的体验的关键因素之一。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭