spark读取hive数据 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

spark读取Hive

compile("org.apache.spark:spark-hive_2.11:$sparkVersion") compile("org.apache.spark:spark-hive-thriftserver..._2.11:$sparkVersion") 启动hive支持 val warehouseLocation = new File("spark-warehouse").getAbsolutePath...//配置spark val spark = SparkSession .builder() .appName("Spark Hive Example") .master...("local[2]") .config("spark.sql.warehouse.dir", warehouseLocation) .config("hive.metastore.uris...", "true") .config("spark.driver.maxResultSize", "5g") //启动hive支持 .enableHiveSupport

1.4K2 0

使用Spark读取Hive中的数据

使用Spark读取Hive中的数据 2018-7-25 作者: 张子阳分类: 大数据处理在默认情况下，Hive使用MapReduce来对数据进行操作和运算，即将HQL语句翻译成MapReduce...还有一种方式，可以称之为Spark on Hive：即使用Hive作为Spark的数据源，用Spark来读取HIVE的表数据（数据仍存储在HDFS上）。...因为Spark是一个更为通用的计算引擎，以后还会有更深度的使用（比如使用Spark streaming来进行实时运算），因此，我选用了Spark on Hive这种解决方案，将Hive仅作为管理结构化数据的工具...通过这里的配置，让Spark与Hive的元数据库建立起联系，Spark就可以获得Hive中有哪些库、表、分区、字段等信息。配置Hive的元数据，可以参考配置Hive使用MySql记录元数据。...写入数据到Hive表(命令行) 接下来像spark提交作业，可以获得执行结果： # spark-submit ~/python/golds_read.py 3645356 wds7654321(4171752

11.3K6 0

您找到你想要的搜索结果了吗？

是的

没有找到

Spark读取配置Spark读取配置

Spark读取配置我们知道，有一些配置可以在多个地方配置。...在其构造函数中就完成了从『spark-submit --选项』、『spark-defaults.conf』、『spark-env.sh』中读取配置，并根据策略决定使用哪个配置。...该参数包含一些系统环境变量的值和从spark-env.sh中读取的配置值，如图是我一个demo中env值的部分截图 ?...Step1：创建各配置成员并赋空值这一步比较简单，定义了所有要从『spark-submit --选项』、『spark-defaults.conf』、『spark-env.sh』中读取的配置，并赋空值。...Step3：mergeDefaultSparkProperties加载spark-defaults.conf中配置 Step3读取spark-defaults.conf中的配置文件并存入sparkProperties

1.6K3 0

python读取hive数据最佳实践

使用pyhive库来连接hive server2提供的对外接口，使用sql语句来对数据进行查询，并处理返回结果。...代码如下： # -*- coding: utf-8 -*- from pyhive import hive conn = hive.Connection(host='HiveServer2 host'

2.8K2 0

Hive架构及Hive On Spark

Hive的所有数据都存在HDFS中. (1)Table:每个表都对应在HDFS中的目录下，数据是经过序列化后存储在该目录中。...同时Hive也支持表中的数据存储在其他类型的文件系统中，如NFS或本地文件系统。...Spark对HiveQL所做的优化主要体现在Query相关的操作，其他的依旧使用Hive的原生执行引擎。在logicalPlan到physicalPlan的转换过程中，toRDD是最关键的。...HiveMetastoreCatalog是Spark中对Hive Metastore访问的wrapper.HiveMetastoreCatalog通过调用相应的Hive API可以获得数据库中的表及表的分区...它会通过Hive client来访问MetaStore的元数据。

2.1K2 1

Pandas vs Spark：数据读取篇

导读按照前文所述，本篇开始Pandas和Spark常用数据处理方法对比系列。数据处理的第一个环节当然是数据读取，所以本文就围绕两个框架常用的数据读取方法做以介绍和对比。...数据读取是所有数据处理分析的第一步，而Pandas和Spark作为常用的计算框架，都对常用的数据源读取内置了相应接口。...等文件类型，其中OCR是Hive中的标准数据文件类型，与Parquet类似，也是列式存储，虽然Pandas也提供支持，但既然是大数据，其实与Pandas已经关系不大了；而pickle则是python中常用的序列化存储格式...02 Spark常用数据读取方法与Pandas类似，Spark也提供了丰富的数据读取API，对于常用的数据读取方法也都给予了非常好的支持。...这里以Scala Spark为例，通过tab键补全命令查看常用的数据读取方法如下：通过spark-shell的tab键补全得到spark.read.的系列方法可以明显注意到Spark的数据读取API

1.9K3 0

Spark读取结构化数据

qr-code.png 读取结构化数据 Spark可以从本地CSV，HDFS以及Hive读取结构化数据，直接解析为DataFrame，进行后续分析。...读取本地CSV 需要指定一些选项，比如留header，比如指定delimiter值，用，或者\t或者其他。 import org.apache.spark.sql....Hive数据 SparkSession可以直接调用sql方法，传入sql查询语句即可。...返回的DataFrame可以做简单的变化，比如转换数据类型，对重命名之类。 import org.apache.spark.sql.....enableHiveSupport() // 需要开启Hive支持 .getOrCreate() import spark.implicits._ //隐式转换 val sql: String

1.9K3 0

2021年大数据Spark（三十一）：Spark On Hive

Spark SQL（SchemaRDD -> DataFrame -> Dataset)，所以SparkSQL天然无缝集成Hive，可以加载Hive表数据进行分析。...本质就是：读取Hive框架元数据MetaStore，此处启动Hive MetaStore服务即可。...的conf目录，此时任意机器启动应用都可以访问Hive表数据。...代码中集成Hive 在IDEA中开发应用，集成Hive，读取表的数据进行分析，构建SparkSession时需要设置HiveMetaStore服务器地址及集成Hive选项，首先添加MAVEN依赖包： <...() //查询数据 spark.sql("select * from person2").show() } }

2.5K1 0

hive etl 通过 ETL engine 读取 Hive 中的数据

图片什么是Hive？ Hive是在Hadoop分布式文件系统上运行的开源分布式数据仓库数据库，用于查询和分析大数据。数据以表格的形式存储(与关系型数据库十分相似)。...Hive帮助企业在HDFS上执行大规模数据分析，使其成为一个水平可伸缩的数据库。通过HiveSQL使具有RDBMS背景的开发人员能够快速构建符合自己业务需求的数据仓库。...Hive直接将数据存储在HDFS系统中，扩容等事宜都交由HDFS系统来维护。如何将Hive中的分析数据导到业务系统中？...etl-engine支持对Hive的读取，并输出到以下目标数据源：消息中间件（Kafka | RocketMQ）; 关系型数据库（ Oracle | MySQL | PostgreSQL | Sqlite...-logLevel debug 如此简单就完成了读 hive 数据表、写 mysql 数据表操作。

2.3K5 0

hive on spark安装

实际上，Hive还可以使用Tez和Spark作为其执行引擎，分别为Hive on Tez和Hive on Spark。...由于MapReduce中间计算均需要写入磁盘，而Spark是放在内存中，所以总体来讲Spark比MapReduce快很多。因此，Hive on Spark也会比Hive on mr快。...为了对比Hive on Spark和Hive on mr的速度，需要在已经安装了Hadoop集群的机器上安装Spark集群（Spark集群是建立在Hadoop集群之上的，也就是需要先装Hadoop集群，...再装Spark集群，因为Spark用了Hadoop的HDFS、YARN等），然后把Hive的执行引擎设置为Spark。...Hive on Spark默认支持Spark on YARN模式，因此我们选择Spark on YARN模式。Spark on YARN就是使用YARN作为Spark的资源管理器。

2682 0

spark sql读取hudi表数据

这篇文章接上一篇spark submit读写hudi,上一篇spark submit写入hudi的数据这里打算通过spark sql来进行查询这里稍作一些基本配置 1.首先把core-site.xml...和hive-site.xml拷贝到spark/conf目录下 2.配置环境变量 export HIVE_HOME=/Users/wangkai/apps/install/hive-2.3.8-client...执行命令 bin/spark-sql \ --master yarn \ --conf spark.sql.hive.convertMetastoreParquet=false \ --jars /Users...(QueryExecution.scala:131) at org.apache.spark.sql.hive.thriftserver.SparkSQLDriver$$anonfun$run$1....:75) at org.apache.spark.sql.hive.thriftserver.SparkSQLDriver.run(SparkSQLDriver.scala:63) at org.apache.spark.sql.hive.thriftserver.SparkSQLCLIDriver.processCmd

2K3 0

优化spark sql读取 kudu数据

实战 1.背景通过 spark sql 读取 kudu 数据，由于 kudu 表只有 6 个 tablet ，所以 spark 默认只能启动 6 个 task，读取 kudu 数据，通过界面可以看到...kudu 的 scan 维持在 143M/s ，想要增大 spark 读取 kudu 的效率。...[在这里插入图片描述](https://img-blog.csdnimg.cn/2020051118163413.png) 2.修改通过追踪 kudu-spark.jar 的源码知道 ?...splitSizeBytes sets the target number of bytes per spark task....be split to generate uniform task sizes instead of the default of 1 task per tablet 调参为： val sqlDF = spark.sqlContext.read.options

2.1K3 0

hive on spark 测试

Tez0.7.0 Apache Pig0.15.0 Apache oozie4.2.0 Apache Spark1.6.0 Cloudrea Hue3.8.1 经测试，spark1.6.0...和spark1.5.x集成hive on spark有问题，相关链接:http://apache-spark-user-list.1001560.n3.nabble.com/Issue-with-spark-on-hive-td25372....jar 到hive的lib目录下即可，然后启动hive： set hive.execution.engine=spark; 执行一个查询： ?...可以执行没有问题，但在测试hive关联hbase表使用spark模式运行的时候，会出现一个异常，spark的kvro序列化总是找不到hbase的一个类，但明明已经启动的时候，加入到hive的class...path里面了，经查资料，貌似是hive的一个bug，但hive on tez模式是可以正常读取hbase表里面的数据的，后续在测试下，看看是否正常。

1.4K9 0

hive on spark 报错

1.自从spark2.0.0发布没有assembly的包了，在jars里面，是很多小jar包修改目录查找jar 2.异常HiveConf of name hive.enable.spark.execution.engine...does not exist 在hive-site.xml中： hive.enable.spark.execution.engine过时了,配置删除即可 3.异常 Failed to execute...spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create spark...FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.spark.SparkTask Spark与hive...版本不对,spark的编译，在这里我使用的是hive稳定版本2.01,查看他的pom.xml需要的spark版本是1.5.0。

3012 0

Spark on Hive & Hive on Spark，傻傻分不清楚

上车前需知 Spark on hive 与 Hive on Spark 的区别 Spark on hive Spark通过Spark-SQL使用hive 语句,操作hive,底层运行的还是 spark...（1）就是通过sparksql，加载hive的配置文件，获取到hive的元数据信息（2）spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据（3）接下来就可以通过spark...sql来操作hive表中的数据 Hive on Spark 是把hive查询从mapreduce 的mr (Hadoop计算引擎)操作替换为spark rdd（spark 执行引擎）操作....执行速度慢使用SparkSQL整合Hive其实就是让SparkSQL去加载Hive 的元数据库，然后通过SparkSQL执行引擎去操作Hive表内的数据首先需要开启Hive的元数据库服务，让SparkSQL...//查询数据 spark.sql("select * from person ").show() spark.stop() } } 在运行程序之前，先让我们进入到hive的shell

12.5K5 1

Spark纯净版 Hive on Spark配置

介绍Apache Spark 是一个开源的统一分析引擎，旨在快速处理大规模数据。它支持多种数据处理任务，包括批处理、流处理、机器学习和图形处理，具有高性能和易于使用的特点。...快速数据处理: Spark 利用内存计算，能够极大地提高处理速度，特别是在迭代计算和交互式查询中。...支持多种数据源: Spark 可以处理我的多种数据格式，如 HDFS、S3、关系数据库、NoSQL 等。...不同于传统的逐一烹饪方式，Spark 可以同时处理多种食材就如它在内存中快速处理大数据一样。...前提准备兼容性说明注意：官网下载的Hive3.1.3和Spark3.3.1默认是不兼容的。因为Hive3.1.3支持的Spark版本是2.3.0，所以需要我们重新编译Hive3.1.3版本。

2302 1

Spark Hive SQL实例

Spark Hive SQL def initDimFrontCate(sqlContext: HiveContext): mutable.HashMap[String, String] = {

7312 0

Spark学习之数据读取与保存（4）

Spark学习之数据读取与保存（4） 1. 文件格式 Spark对很多种文件格式的读取和保存方式都很简单。如文本文件的非结构化的文件，如JSON的半结构化文件，如SequenceFile结构化文件。...读取/保存文本文件 Python中读取一个文本文件 input = sc.textfile("file:///home/holen/repos/spark/README.md") Scala...中读取一个文本文件 val input = sc.textFile("file:///home/holen/repos/spark/README.md") Java中读取一个文本文件...Spark SQL中的结构化数据结构化数据指的是有结构信息的数据————也就是所有的数据记录都有具有一致字段结构的集合。...在各种情况下，我们把一条SQL查询给Spark SQL，让它对一个数据源执行查询，然后得到由Row对象组成的RDD，每个Row对象表示一条记录。

1.1K7 0

Spark-Streaming实时数据读取(kafka)

上一篇文章我们使用Spark对MySQL进行读写，实际上Spark在工作中更多的是充当实时流计算框架引入依赖 org.apache.spark...-- provided--> 代码 package spark; import org.apache.spark.SparkConf...; import org.apache.spark.SparkContext; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.FlatMapFunction...; import org.apache.spark.streaming.Duration; import org.apache.spark.streaming.api.java.JavaDStream;...; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.FlatMapFunction

1.2K3 0

Spark如何读取Hbase特定查询的数据

最近工作需要使用到Spark操作Hbase，上篇文章已经写了如何使用Spark读写Hbase全量表的数据做处理，但这次有所不同，这次的需求是Scan特定的Hbase的数据然后转换成RDD做后续处理，简单的使用...基础软件版本如下：直接上代码如下：上面的少量代码，已经完整实现了使用spark查询hbase特定的数据，然后统计出数量最后输出，当然上面只是一个简单的例子，重要的是能把hbase数据转换成RDD，只要转成

2.8K5 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭