分布式系统和大数据处理-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

分布式系统和大数据处理

专栏成员

103

文章

168454

阅读量

30

订阅数

使用Spark读取Hive中的数据

spark hive 大数据 mapreduce 官方文档

在默认情况下，Hive使用MapReduce来对数据进行操作和运算，即将HQL语句翻译成MapReduce作业执行。而MapReduce的执行速度是比较慢的，一种改进方案就是使用Spark来进行数据的查找和运算。Hive和Spark的结合使用有两种方式，一种称为Hive on Spark：即将Hive底层的运算引擎由MapReduce切换为Spark，官方文档在这里：Hive on Spark: Getting Started。还有一种方式，可以称之为Spark on Hive：即使用Hive作为Spark的数据源，用Spark来读取HIVE的表数据（数据仍存储在HDFS上）。

2018-09-28

11.2K0

安装和配置Spark(单节点)

spark 大数据 apache linux hadoop

Apache Spark被称为第三代大数据处理平台，也当前应用最广泛的大数据处理方案，这篇文章将介绍如何在Linux系统（Cent OS7）上以单机模式（Stand alone）模式安装Apache Spark。当前的最新稳定版是2.3.1。

2018-09-28

3.7K0

使用Spark进行数据统计并将结果转存至MSSQL

spark sql hive python api

在使用Spark读取Hive中的数据中，我们演示了如何使用python编写脚本，提交到spark，读取并输出了Hive中的数据。在实际应用中，在读取完数据后，通常需要使用pyspark中的API来对数据进行统计或运算，并将结果保存起来。本节将演示这一过程。

2018-08-22

2.2K0

配置Hadoop集群客户端

spark 面向对象编程 hadoop hive ssh

在Hadoop和Spark集群搭建好了以后，如果我们需要向集群中发送、获取文件，或者是执行MapReduce、Spark作业，通常是搭建一个外围的、集群的客户端，在这个客户端上进行操作。而不是直接在集群的NameNode或者DataNode上进行。此时，集群和客户端的结构如下图所示（简化图，没有考虑NameNode的高可用），本文将介绍如何快速搭建一个集群客户端（有时也叫gateway）。

2018-08-22

3.5K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态