首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何使用Spark Execution Engine运行配置单元(Apache Hive版本2.1.1和Apache Spark版本2.2.0)

Spark Execution Engine是Apache Spark的执行引擎,它用于处理大规模数据集的计算任务。在使用Spark Execution Engine运行配置单元之前,需要确保已经安装了Apache Hive版本2.1.1和Apache Spark版本2.2.0。

下面是使用Spark Execution Engine运行配置单元的步骤:

  1. 配置Hive和Spark环境:确保已经正确配置了Hive和Spark的环境变量,并且它们能够正常运行。
  2. 创建Hive表:使用Hive的DDL语句创建需要处理的表,定义表的结构和数据格式。
  3. 导入数据:将需要处理的数据导入到Hive表中,可以使用Hive的LOAD DATA语句或者其他方式导入数据。
  4. 编写HiveQL查询:使用HiveQL编写需要执行的查询语句,可以包括数据过滤、聚合、排序等操作。
  5. 使用Spark Execution Engine运行配置单元:在Hive中,可以通过设置hive.execution.engine属性为spark,启用Spark Execution Engine。可以在Hive的配置文件hive-site.xml中添加以下配置:
代码语言:txt
复制

<property>

代码语言:txt
复制
 <name>hive.execution.engine</name>
代码语言:txt
复制
 <value>spark</value>

</property>

代码语言:txt
复制

这样,当执行HiveQL查询时,Spark Execution Engine将被用于执行查询。

  1. 执行查询:使用Hive的命令行工具或者其他方式执行编写的HiveQL查询语句。Spark Execution Engine将负责执行查询,并返回结果。

Spark Execution Engine的优势:

  • 高性能:Spark Execution Engine利用Spark的内存计算和并行处理能力,能够处理大规模数据集的计算任务,提供高性能的查询和分析能力。
  • 弹性扩展:Spark Execution Engine支持横向扩展,可以根据数据量和计算需求自动调整集群规模,提供弹性的计算资源。
  • 多语言支持:Spark Execution Engine支持多种编程语言,如Scala、Java、Python和R,开发人员可以根据自己的喜好和需求选择合适的语言进行开发。

Spark Execution Engine的应用场景:

  • 大数据分析:Spark Execution Engine适用于处理大规模数据集的分析任务,可以进行数据清洗、数据挖掘、机器学习等操作。
  • 实时数据处理:Spark Execution Engine支持流式数据处理,可以实时处理数据流,适用于实时监控、实时推荐等场景。
  • 图计算:Spark Execution Engine提供了图计算库GraphX,可以进行复杂的图计算任务,适用于社交网络分析、网络安全等领域。

腾讯云相关产品推荐:

  • 腾讯云Spark:腾讯云提供的Spark托管服务,可以快速创建和管理Spark集群,支持大规模数据处理和分析任务。详情请参考:腾讯云Spark
  • 腾讯云Hive:腾讯云提供的Hive托管服务,可以快速创建和管理Hive集群,支持使用Spark Execution Engine执行HiveQL查询。详情请参考:腾讯云Hive

请注意,以上推荐的腾讯云产品仅作为示例,其他云计算品牌商也提供类似的产品和服务。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

Hive2.2.0如何与CDH集群中的Spark1.6集成

Hive2.3.3》,本篇文章主要介绍Hive2.2.0服务如何与CDH集群中的Spark1.6集成,Hive on Spark对于HiveSpark版本都有严格的要求,Fayson本文使用的是Hive2.2.0...内容概述 1.环境准备 2.Hive2.2.0集成Spark1.6 3.验证是否集成成功 4.总结 测试环境 1.CMCDH版本为5.14.2 2.Hive版本2.2.0 3.操作系统版本为RedHat7.4...使用beelineHiveCLI都可以登录Hive2.2.0并正常使用。 2.CDH集群已部署Spark1.6且服务正常 ? 提交一个Spark作业测试Spark服务是否正常。...作业不会在Spark的History界面显示,也可以不在配置文件中指定,在运行作业是使用set的方式指定。...更多配置说明官网推荐配置可参考如下链接: https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started

1.2K21
  • Hive on spark下insert overwrite partition慢的优化

    Hive版本: 2.1.1, Spark版本是1.6.0     这几天发现insert overwrite partition运行的很慢,看了下是hive on spark引擎,这引擎平时比mapreduce...运行1h多了,但是还是处于那个状态,感觉不对立即搜索了下,别人也遇到了这个问题,没找到好的解决方法     我暂时对这个任务设置mr作为执行引擎——使用set hive.execution.engine...=mr,不使用spark作为引擎,这样就解决了一直卡住不动的问题     之后hive又报错了,提示超过了单个node的max partition数,如List-2 List-2 ......再设置partitionspartitions.pernode,如下List-3 List-3 set hive.execution.engine=mr; set hive.exec.dynamic.partition...这样就解决了,但是mr还是慢,没办法要么更换hive/spark版本,要么自己去修改spark源码,先用mr暂时解决下。

    2.7K20

    第一天:spark基础

    MR基于文件存储介质的操作,所以性能非常的慢 MRhadoop紧密耦合在一起,无法动态替换。违背了OCP原则 2.0版本框架如下: ?...通过Spark SQL,我们可以使用 SQL或者Apache Hive版本的SQL方言(HQL)来查询数据。Spark SQL支持多种数据源,比如Hive表、Parquet以及JSON等。...Spark 运行模式 官方信息 官网地址http://spark.apache.org/ 文档查看地址https://spark.apache.org/docs/2.1.1/ 下载地址https://spark.apache.org.../examples/jars/spark-examples_2.11-2.1.1.jar 100 (spark版本不同example不同) 结果: Pi is roughly 3.1419875141987514...(Level.OFF) WordCountLocal文件(本地debug模式) 本地Spark程序调试需要使用local提交模式,即将本机当做运行环境,MasterWorker都为本机。

    68130

    如何编译适用于CDH的Tez版本并集成Kerberos环境的Hive2

    1.文档编写目的 ---- 在上一篇文章Fayson介绍了《非Kerberos环境下Hive2.2.0 On Tez集成》,使用Apache官网默认编译好的0.8.5版本的Tez,默认的版本使用的依赖包是开源的...在学习本篇文章内容你还需要知道: 《如何在CDH集群中安装Hive2.3.3》 《如何Hive2启用Kerberos认证》 《Hive2.2.0如何与CDH集群中的Spark1.6集成》 《非Kerberos...环境下Hive2.2.0 On Tez集成》 文章概述 1.环境准备及编译 2.集成Kerberos环境Hive2及测试 3.总结 本次Fayson的测试环境为 1.CMCDH版本为5.15 2.Redhat7.3...3.JDK1.8.0_141 4.Hive版本2.2.0 5.Tez版本为0.8.5 2.编译环境准备 ---- 这一步的环境准备,主要是用于编译Tez,准备一台可以访问外网环境的集群,配置编译Tez...3.使用Beeline测试 [root@cdh04 ~]# beeline2 Beeline version 2.2.0 by Apache Hive beeline> !

    2.1K20

    Apache Hudi又双叕被国内顶级云服务提供商集成了!

    Hudi 是一个通用的大数据存储系统,主要特性: 摄取查询引擎之间的快照隔离,包括 Apache Hive、Presto Apache Spark。 支持回滚存储点,可以恢复数据集。...一旦将记录的第一个版本写入文件,记录键 文件组/ 文件id之间的映射就永远不会改变。简而言之,映射的文件组包含一组记录的所有版本。...hudi 组件依赖 hive spark 组件, 如果选择安装 hudi 组件,EMR 将自动安装 hive spark 组件。...使用示例 可参考 hudi 官网示例: 登录 master 节点,切换为 hadoop 用户。 加载 spark 配置。...--hiveconf hive.stats.autogather=false set hive.execution.engine=tez; set hive.execution.engine=spark

    80430

    Spark2Streaming读Kerberos环境的Kafka并写数据到HDFS

    读Kerberos环境的Kafka并写数据到Hive》,本篇文章Fayson主要介绍如何使用Spark2Streaming访问Kerberos环境的Kafka并将接收到的Kafka数据逐条写入HDFS。...内容概述: 1.环境准备 2.Spark2Streaming示例开发 3.示例运行 4.总结 测试环境: 1.CM5.14.3/CDH5.14.2 2.CDK2.2.0Apache Kafka0.10.2...) 3.SPARK2.2.0 4.操作系统版本为Redhat7.3 5.采用root用户进行操作 6.集群已启用Kerberos 2.环境准备 1.准备访问Kafka的Keytab文件,使用xst命令导出...服务的配置项将spark_kafka_version的kafka版本修改为0.10 ?...4.示例运行 1.使用spark2-submit命令向集群提交SparkStreaming作业 spark2-submit --class com.cloudera.streaming.Kafka2Spark2HDFS

    1.3K10

    0816-CDP Hive3升级说明

    使用Spark写入Hive ACID表,需要使用HWCHWC API。如果不使用HWC API,Spark使用purge属性创建一个外部表。 d)为表设置Ranger策略HDFS ACL。...3.14覆盖设置Hive配置 对于旧的Hive集群中的自定义配置,你需要知道如何在升级过程中保留这些配置。根据记录的旧配置项,参考以下步骤至少设置6个关键属性值。...1.升级到CDP之前 CDH支持Hive on Spark,然后通过set hive.execution.engine=spark来启用Hive on Spark。...3.需要采取的行动 移除脚本中的set hive.execution.engine=spark 3.18更新Ranger的表策略 尽管升级过程不会更改外部表的位置,但是如果你在升级过程中移动了表,则需要了解访问...Cloud only) Spark execution engine (replaced by Tez) Spark thrift server Spark and Hive tables interoperate

    3.1K40

    干货 | 携程数据基础平台2.0建设,多机房架构下的演进

    6.1 Spark3 2017 年引入 Apache Spark 2.2,基于此版本做了不少定制化的开发,实现多租户的 Thrift Server,基本替代了 Hive CLI/HiveServer2...社区版本提供了一个配置项,需要通过 spark.sql.hive.metastorePartitionPruningFastFallback=true 打开此特性。...Kyuubi 有如下的优点 隔离性好,支持资源队列隔离,Engine 隔离 设计天然多租户,计费友好,支持 Cluster 模式 不与 Spark 具体版本绑定,支持 N 个大小 Spark3 版本 使用...动态远程配置 基于远程配置中心,推送各种配置,按用户,用户组开启 动态分时注销 Engine 白天允许 Engine 闲置时间更长,避免冷启动 Engine 较慢 动态调度 Engine 集群 历史画像分析...,使用资源较小的 Engine 允许调度到离线在线混部集群 6.2.3 Kyuubi 全链路血缘跟踪 在多租户共享 Engine 的情况,如何精细化跟踪每条 SQL?

    19910
    领券