腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
分布式系统和大数据处理
专栏成员
举报
103
文章
168454
阅读量
30
订阅数
订阅专栏
申请加入专栏
全部文章(103)
其他(66)
hadoop(9)
hive(8)
大数据(8)
linux(7)
.net(5)
存储(5)
asp.net(4)
html(4)
数据库(4)
ide(4)
mapreduce(4)
yarn(4)
分布式(4)
spark(4)
ssh(4)
windows(4)
java(3)
react(3)
sql(3)
http(3)
开源(3)
asp(3)
微服务(3)
官方文档(2)
api(2)
webpack(2)
游戏(2)
缓存(2)
iphone(1)
python(1)
ruby(1)
go(1)
angularjs(1)
xml(1)
json(1)
ajax(1)
access(1)
搜索引擎(1)
ubuntu(1)
windows server(1)
apache(1)
容器镜像服务(1)
redux(1)
编程算法(1)
shell(1)
网络安全(1)
jdk(1)
正则表达式(1)
yum(1)
面向对象编程(1)
dns(1)
jdbc(1)
决策树(1)
npm(1)
seo(1)
iis(1)
socket编程(1)
微信(1)
安全(1)
数据处理(1)
数据结构(1)
系统架构(1)
搜索文章
搜索
搜索
关闭
使用Spark读取Hive中的数据
spark
hive
大数据
mapreduce
官方文档
在默认情况下,Hive使用MapReduce来对数据进行操作和运算,即将HQL语句翻译成MapReduce作业执行。而MapReduce的执行速度是比较慢的,一种改进方案就是使用Spark来进行数据的查找和运算。Hive和Spark的结合使用有两种方式,一种称为Hive on Spark:即将Hive底层的运算引擎由MapReduce切换为Spark,官方文档在这里:Hive on Spark: Getting Started。还有一种方式,可以称之为Spark on Hive:即使用Hive作为Spark的数据源,用Spark来读取HIVE的表数据(数据仍存储在HDFS上)。
张子阳
2018-09-28
11.2K
0
安装和配置Spark(单节点)
spark
大数据
apache
linux
hadoop
Apache Spark被称为第三代大数据处理平台,也当前应用最广泛的大数据处理方案,这篇文章将介绍如何在Linux系统(Cent OS7)上以单机模式(Stand alone)模式安装Apache Spark。当前的最新稳定版是2.3.1。
张子阳
2018-09-28
3.7K
0
使用Spark进行数据统计并将结果转存至MSSQL
spark
sql
hive
python
api
在 使用Spark读取Hive中的数据 中,我们演示了如何使用python编写脚本,提交到spark,读取并输出了Hive中的数据。在实际应用中,在读取完数据后,通常需要使用pyspark中的API来对数据进行统计或运算,并将结果保存起来。本节将演示这一过程。
张子阳
2018-08-22
2.2K
0
配置Hadoop集群客户端
spark
面向对象编程
hadoop
hive
ssh
在Hadoop和Spark集群搭建好了以后,如果我们需要向集群中发送、获取文件,或者是执行MapReduce、Spark作业,通常是搭建一个外围的、集群的客户端,在这个客户端上进行操作。而不是直接在集群的NameNode或者DataNode上进行。此时,集群和客户端的结构如下图所示(简化图,没有考虑NameNode的高可用),本文将介绍如何快速搭建一个集群客户端(有时也叫gateway)。
张子阳
2018-08-22
3.5K
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档