首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

使用Spark读取Hive中的数据

使用Spark读取Hive中的数据 2018-7-25 作者: 张子阳 分类: 大数据处理 在默认情况下,Hive使用MapReduce来对数据进行操作和运算,即将HQL语句翻译成MapReduce...还有一种方式,可以称之为Spark on Hive:即使用Hive作为Spark数据源,用Spark读取HIVE数据数据仍存储在HDFS上)。...因为Spark是一个更为通用的计算引擎,以后还会有更深度的使用(比如使用Spark streaming来进行实时运算),因此,我选用了Spark on Hive这种解决方案,将Hive仅作为管理结构化数据的工具...通过这里的配置,让SparkHive的元数据库建立起联系,Spark就可以获得Hive中有哪些库、、分区、字段等信息。 配置Hive的元数据,可以参考 配置Hive使用MySql记录元数据。...PyCharm这个IDE进行开发的,上面引用了pyspark这个包,如何进行python的包管理可以自行百度。

11.1K60

如何使用Sentry管理Hive外部(补充)

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 1.文档编写目的 ---- 本文文档主要讲述如何使用Sentry管理Hive/Impala外部权限。...2.创建测试库及外部 ---- 使用hive用户登录Kerberos,并通过beeline登录HiveServer2 创建fayson数据库 0: jdbc:hive2://localhost:10000...数据库对student_hive操作 可以向中插入数据 0: jdbc:hive2://localhost:10000/> insert into student_hive values('lisi...5.测试总结 ---- 如果这个外部的目录没有在cm里配置成需要sentry管理的目录,通过Sentry赋权后,是没法做ACL同步的,不建议在生产系统中这样使用。...如果你需要管理外部,那么你就需要按照之前的标准文档来操作。如何使用Sentry管理Hive外部权限 醉酒鞭名马,少年多浮夸! 岭南浣溪沙,呕吐酒肆下!挚友不肯放,数据玩的花!

1.2K40
您找到你想要的搜索结果了吗?
是的
没有找到

如何使用Sentry管理Hive外部权限

1.文档编写目的 本文档主要讲述如何使用Sentry对Hive外部权限管理,并基于以下假设: 1.操作系统版本:RedHat6.5 2.CM版本:CM 5.11.1 3.集群已启用Kerberos和Sentry...4.采用具有sudo权限的ec2-user用户进行操作 2.前置准备 2.1创建外部数据父目录 1.使用hive用户登录Kerberos [root@ip-172-31-8-141 1874-hive-HIVESERVER2...]# [ox1s2aedz8.jpeg] 2.创建HDFS目录 使用如下命令在HDFS的根目录下创建Hive外部数据目录/extwarehouse [root@ip-172-31-8-141 ec2...3.创建Hive外部 1.使用beeline命令行连接hive,创建Hive外部 建表语句: create external table if not exists student(...7.Sentry管理Hive外部权限总结 开启外部数据父目录ACL同步后,不需要单独的维护外部数据目录权限。

5.3K91

如何Hive加载数据

: 1.通过Insert的方式加载数据 2.从本地文件系统导文件到Hive 3.从HDFS加载数据Hive 4.单个查询语句中创建并加载数据 本文主要是通过实操的方式来介绍Hive的这几种数据加载...'),(3,'fayson3'); #多条插入 (可向右拖动) [none9za4lz.jpeg] 2.使用追加的方式从其他查询相应数据并插入到Hive中 INSERT INTO my_table...my_table中,执行结果如下: [gvleu5r51s.jpeg] 3.使用覆盖的方式从test_user查询相应数据并插入到Hive中 INSERT OVERWRITE TABLE my_table...] 执行结果如下: [twws7lrpuk.jpeg] 2.使用覆盖的方式Load本地数据文件到Hive中 LOAD DATA LOCAL INPATH '/data/a.txt' OVERWRITE...Load HDFS文件到Hive时,文件会被Move到对应数据目录下,且保持文件名。 使用Load命令时如果没有OVERWRITE,会直接APPEND到Hive中,并且不会去除重复数据

3.3K60

如何使用Spark的local模式远程读取Hadoop集群数据

我们在windows开发机上使用spark的local模式读取远程hadoop集群中的hdfs上的数据,这样的目的是方便快速调试,而不用每写一行代码或者一个方法,一个类文件都需要打包成jar上传到linux...一个样例代码如下: 如何spark中遍历数据时获取文件路径: 如果遍历压缩文件时想要获取文件名,就使用newAPIHadoopFile,此外在本地调试下通过之后,提交到集群运行的时候,一定要把uri去掉...,本地加上是想让它远程读取方便调试使用,如果正式运行去掉uri在双namenode的时候可以自动兼容,不去反而成一个隐患了。...最后我们可以通过spark on yarn模式提交任务,一个例子如下: 这里选择用spark提交有另外一个优势,就是假如我开发的不是YARN应用,就是代码里没有使用SparkContext,而是一个普通的应用...,就是读取mysql一个数据,写入另外一个mysql,这里跟MR没有关系,但是我依然可以用spark-sumbit提交,这时候是不会提交到YARN上的,但是程序会按普通程序运行,程序依赖的jar包,

2.9K50

Spark将Dataframe数据写入Hive分区的方案

欢迎您关注《大数据成神之路》 DataFrame 将数据写入hive中时,默认的是hive默认数据库,insert into没有指定数据库的参数,数据写入hive或者hive分区中: 1、将DataFrame...向hive数据仓库写入数据必须指定数据库,hive数据建立可以在hive上建立,或者使用hiveContext.sql("create table .....")...数据写入hive数据中了。...2、将DataFrame数据写入hive指定数据的分区中 hive数据建立可以在hive上建立,或者使用hiveContext.sql("create table....")...,使用saveAsTable时数据存储格式有限,默认格式为parquet,将数据写入分区的思路是:首先将DataFrame数据写入临时,之后由hiveContext.sql语句将数据写入hive分区

15.9K30

如何使用StreamSets实时采集Kafka数据并写入Hive

CDH中安装和使用StreamSets》、《如何使用StreamSets从MySQL增量更新数据Hive》、《如何使用StreamSets实现MySQL中变化数据实时写入Kudu》、《如何使用StreamSets...实现MySQL中变化数据实时写入HBase》和《如何使用StreamSets实时采集Kafka并入库Kudu》,本篇文章Fayson主要介绍如何使用StreamSets实时采集Kafka的数据并将采集的数据写入...配置Late Records参数,使用默认参数即可 ? 指定写入到HDFS的数据格式 ? 5.添加Hive Metastore模块,该模块主要用于向Hive库中创建 ?...3.在StreamSets中查看kafka2hive的pipline运行情况 ? 4.使用sdc用户登录Hue查看ods_user数据 ? 入库的数据总条数 ?...hive数据目录,HiveMetastore主要用于判断是否存在是否需要创建

5.3K20

Spark如何读取Hbase特定查询的数据

最近工作需要使用Spark操作Hbase,上篇文章已经写了如何使用Spark读写Hbase全量表的数据做处理,但这次有所不同,这次的需求是Scan特定的Hbase的数据然后转换成RDD做后续处理,简单的使用...基础软件版本如下: 直接上代码如下: 上面的少量代码,已经完整实现了使用spark查询hbase特定的数据,然后统计出数量最后输出,当然上面只是一个简单的例子,重要的是能把hbase数据转换成RDD,只要转成...版本比较新,如果是比较旧的hbase,如果自定义下面的方法将scan对象给转成字符串,代码如下: 最后,还有一点,上面的代码是直接自己new了一个scan对象进行组装,当然我们还可以不自己new对象,全部使用

2.7K50

如何使用Spark Streaming读取HBase的数据并写入到HDFS

本篇文章主要介绍如何使用Spark Streaming读取HBase数据并将数据写入HDFS,数据流图如下: [6wlm2tbk33.jpeg] 类图如下: [lyg9ialvv6.jpeg] SparkStreamingHBase...MyReceiver:自定义Receiver通过私有方法receive()方法读取HBase数据并调用store(b.toString())将数据写入DStream。...2.测试环境 ---- 1.HBase create 'picHbase', {NAME => 'picinfo'} (可向右拖动) [7mvyrrot4e.jpeg] 2.向中插入测试数据 put...数据并将数据写入HDFS * creat_user: Fayson * email: htechinfo@163.com * creat_date: 2018/1/9 * creat_time...: [dmbntpdpnv.jpeg] 6.总结 ---- 示例中我们自定义了SparkStreaming的Receiver来查询HBase中的数据,我们可以根据自己数据源的不同来自定义适合自己源的Receiver

4.3K40

管理sql server数据_sql server如何使用

是SQL Server中最基本的数据库对象,用于存储数据的一种逻辑结构,由行和列组成, 它又称为二维。 例如,在学生成绩管理系统中,1–是一个学生(student)。...(1) 数据库中存储数据数据库对象,每个数据库包含了若干个由行和列组成。例如,1- -由6行6列组成。...---- 创建数据库最重要的一步为创建其中的数据,创建数据必须定义结构和设置列的数据类型、长度等,下面,我们介绍SQL Server系统数据类型,如表2–所示。...我们以学生成绩管理系统的student(学生)为例介绍结构设计。 在student中,只有stno列能唯一标识一个学生,所以将stno列设为主键。student的结构设计如表3–所示。...(1)启动“SQL Server Management Studio”,在“对象资源管理器”中展开“数据库”节点,选中“stsc”数据库,展开该数据库,选中表,将其展开,选中表“dbo.xyz”,单击鼠标右键

1.7K10

SQL、Pandas和Spark如何实现数据透视

所以,今天本文就围绕数据透视,介绍一下其在SQL、Pandas和Spark中的基本操作与使用,这也是沿承这一系列的文章之一。 ?...03 Spark实现数据透视 Spark作为分布式的数据分析工具,其中spark.sql组件在功能上与Pandas极为相近,在某种程度上个人一直将其视为Pandas在大数据中的实现。...在Spark中实现数据透视的操作也相对容易,只是不如pandas中的自定义参数来得强大。 首先仍然给出在Spark中的构造数据: ?...2.对上述结果执行行转列,实现数据透视。这里,SQL中实现行转列一般要配合case when,简单的也可以直接使用if else实现。...以上就是数据透视在SQL、Pandas和Spark中的基本操作,应该讲都还是比较方便的,仅仅是在SQL中需要稍加使用个小技巧。希望能对大家有所帮助,如果觉得有用不妨点个在看!

2.7K30

如何使用StreamSets实时采集Kafka中嵌套JSON数据并写入Hive

1.文档编写目的 ---- 在前面的文章Fayson介绍了关于StreamSets的一些文章《如何在CDH中安装和使用StreamSets》、《如何使用StreamSets从MySQL增量更新数据Hive...》、《如何使用StreamSets实现MySQL中变化数据实时写入Kudu》、《如何使用StreamSets实现MySQL中变化数据实时写入HBase》、《如何使用StreamSets实时采集Kafka...并入库Kudu》和《如何使用StreamSets实时采集Kafka数据并写入Hive》,本篇文章Fayson主要介绍如何使用StreamSets实时采集Kafka中嵌套的JSON数据并将采集的数据写入...配置Late Records参数,使用默认参数即可 ? 指定写入到HDFS的数据格式 ? 6.添加Hive Metastore模块,该模块主要用于向Hive库中创建 ?...3.在StreamSets中查看kafka2hive_json的pipline运行情况 ? 4.使用sdc用户登录Hue查看ods_user数据 ?

4.8K51

使用Django管理数据

上节讲了如何利用Django建立自己的第一个网站 这节讲如何利用Django定义一个数据库的并同步到MySQL中 最后讲述如何修改结构 ---- 开发环境 操作系统:CentOS 7.3 Python...,简称ORM),简单来说就是通过面向对象的方法来映射后端数据库 在后面的实例中会有介绍,它通过 类(class)的方式定义关系型数据库的结构 ---- 首先看下整体的流程 ?...填写需要运维的Oracle数据库信息 ? ---- 验证添加 ?...前几个版本开始支持自动处理结构的更改,如添加字段,修改字段类型等 我们只需在models.py文件中进行相应的修改即可 ?...---- 今天介绍了介绍了如何安装配置并创建网站,内容有点多,大家可按照步骤一步步来,我也是重新搭的环境一步步来的 下期将介绍如何利用Django建立我们的第一个页面

68930

CDP的HWC授权

要将 ACID 托管Spark 写入 Hive,您必须使用 HWC。要将外部Spark 写入 Hive,您可以使用原生 Spark 或 HWC。...托管具有不允许最终用户访问的默认文件系统权限,包括 Spark 用户访问。 作为管理员,当您为 JDBC 读取配置 HWC 时,您可以在 Ranger 中设置访问托管的权限。...此限制扩展到使用 Direct Reader 读取数据。 要在细粒度级别限制数据访问,请使用支持 Ranger 的读取选项。...如果不需要细粒度访问,请仅考虑使用 Direct Reader 选项从 Spark 读取 Hive 数据。例如,将 Direct Reader 用于 ETL 用例。...授权外部 作为管理员,您需要了解如何授权用户对Apache Hive 外部进行读写,包括使用Spark SQL、Hue 和Beeline 访问。您还需要为用户配置的文件级权限。

1K10

0856-7.1.4-如何使用spark-shell操作Kudu

如果将Spark与Scala 2.10 一起使用,需要使用 kudu-spark_2.10 。.../artifactory/cloudera-repos/ 本文主要讲述在CDP7.1.4中如何通过spark-shell对kudu的进行操作。...已经不存在了 3.常见问题和优化 使用Spark程序访问Kudu 时应考虑如下问题: 尽管 Kudu Spark 2.x 集成与 Java 7 兼容,但 Spark 2.2(及更高版本)在运行时需要...Kudu 并不支持 Spark SQL 支持的所有类型。例如,不支持Date类型。 Kudu 只能在 SparkSQL 中注册为临时。 无法使用HiveContext查询Kudu。...通常,Spark作业用最少的调整和配置运行。可以使用Spark 的配置选项调整执行程序和资源的数量,以提高并行度和性能。如果非常宽并且默认内存分配相当低,可能导致作业失败。

1.2K30
领券