首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

使用Spark读取Hive中的数据

使用Spark读取Hive中的数据 2018-7-25 作者: 张子阳 分类: 大数据处理 在默认情况下,Hive使用MapReduce来对数据进行操作和运算,即将HQL语句翻译成MapReduce...还有一种方式,可以称之为Spark on Hive:即使用Hive作为Spark数据源,用Spark读取HIVE的表数据数据仍存储在HDFS上)。...因为Spark是一个更为通用的计算引擎,以后还会有更深度的使用(比如使用Spark streaming来进行实时运算),因此,我选用了Spark on Hive这种解决方案,将Hive仅作为管理结构化数据的工具...通过这里的配置,让SparkHive的元数据库建立起联系,Spark就可以获得Hive中有哪些库、表、分区、字段等信息。 配置Hive的元数据,可以参考 配置Hive使用MySql记录元数据。...写入数据Hive表(命令行) 接下来像spark提交作业,可以获得执行结果: # spark-submit ~/python/golds_read.py 3645356 wds7654321(4171752

11.1K60
您找到你想要的搜索结果了吗?
是的
没有找到

Pandas vs Spark数据读取

导读 按照前文所述,本篇开始Pandas和Spark常用数据处理方法对比系列。数据处理的第一个环节当然是数据读取,所以本文就围绕两个框架常用的数据读取方法做以介绍和对比。...数据读取是所有数据处理分析的第一步,而Pandas和Spark作为常用的计算框架,都对常用的数据读取内置了相应接口。...等文件类型,其中OCR是Hive中的标准数据文件类型,与Parquet类似,也是列式存储,虽然Pandas也提供支持,但既然是大数据,其实与Pandas已经关系不大了;而pickle则是python中常用的序列化存储格式...02 Spark常用数据读取方法 与Pandas类似,Spark也提供了丰富的数据读取API,对于常用的数据读取方法也都给予了非常好的支持。...这里以Scala Spark为例,通过tab键补全命令查看常用的数据读取方法如下: 通过spark-shell的tab键补全得到spark.read.的系列方法 可以明显注意到Spark数据读取API

1.7K30

hive etl 通过 ETL engine 读取 Hive 中的数据

图片 什么是HiveHive是在Hadoop分布式文件系统上运行的开源分布式数据仓库数据库,用于查询和分析大数据数据以表格的形式存储(与关系型数据库十分相似)。...Hive帮助企业在HDFS上执行大规模数据分析,使其成为一个水平可伸缩的数据库。 通过HiveSQL使具有RDBMS背景的开发人员能够快速构建符合自己业务需求的数据仓库。...Hive直接将数据存储在HDFS系统中,扩容等事宜都交由HDFS系统来维护。 如何将Hive中的分析数据导到业务系统中?...etl-engine支持对Hive读取,并输出到以下目标数据源: 消息中间件(Kafka | RocketMQ); 关系型数据库( Oracle | MySQL | PostgreSQL | Sqlite...-logLevel debug 如此简单就完成了 读 hive 数据表 、写 mysql 数据表 操作。

2.3K50

Spark on Hive & Hive on Spark,傻傻分不清楚

上车前需知 Spark on hiveHive on Spark 的区别 Spark on hive Spark通过Spark-SQL使用hive 语句,操作hive,底层运行的还是 spark...(1)就是通过sparksql,加载hive的配置文件,获取到hive的元数据信息 (2)spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据 (3)接下来就可以通过spark...sql来操作hive表中的数据 Hive on Spark 是把hive查询从mapreduce 的mr (Hadoop计算引擎)操作替换为spark rdd(spark 执行引擎) 操作....执行速度慢 使用SparkSQL整合Hive其实就是让SparkSQL去加载Hive 的元数据库,然后通过SparkSQL执行引擎去操作Hive表内的数据 首先需要开启Hive的元数据库服务,让SparkSQL...//查询数据 spark.sql("select * from person ").show() spark.stop() } } 在运行程序之前,先让我们进入到hive的shell

11.3K51

Spark学习之数据读取与保存(4)

Spark学习之数据读取与保存(4) 1. 文件格式 Spark对很多种文件格式的读取和保存方式都很简单。 如文本文件的非结构化的文件,如JSON的半结构化文件,如SequenceFile结构化文件。...读取/保存文本文件 Python中读取一个文本文件 input = sc.textfile("file:///home/holen/repos/spark/README.md") Scala...中读取一个文本文件 val input = sc.textFile("file:///home/holen/repos/spark/README.md") Java中读取一个文本文件...Spark SQL中的结构化数据 结构化数据指的是有结构信息的数据————也就是所有的数据记录都有具有一致字段结构的集合。...在各种情况下,我们把一条SQL查询给Spark SQL,让它对一个数据源执行查询,然后得到由Row对象组成的RDD,每个Row对象表示一条记录。

1.1K70

Spark读取和存储HDFS上的数据

本篇来介绍一下通过Spark读取和HDFS上的数据,主要包含四方面的内容:将RDD写入HDFS、读取HDFS上的文件、将HDFS上的文件添加到Driver、判断HDFS上文件路径是否存在。...本文的代码均在本地测试通过,实用的环境时MAC上安装的Spark本地环境。...3、读取HDFS上的文件 读取HDFS上的文件,使用textFile方法: val modelNames2 = spark.sparkContext.textFile("hdfs://localhost...:9000/user/root/modelNames3/") 读取时是否加最后的part-00000都是可以的,当只想读取某个part,则必须加上。...4、将HDFS上的文件添加到Driver 有时候,我们并不想直接读取HDFS上的文件,而是想对应的文件添加到Driver上,然后使用java或者Scala的I/O方法进行读取,此时使用addFile和get

18K31
领券