分布式系统和大数据处理-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

分布式系统和大数据处理

专栏成员

103

文章

168347

阅读量

30

订阅数

大数据常用组件默认端口号

大数据 hadoop yarn mapreduce hive

.colspan{ background:#f4f4f4; font-weight: bold;}

2018-09-30

2.3K0

使用Spark读取Hive中的数据

spark hive 大数据 mapreduce 官方文档

在默认情况下，Hive使用MapReduce来对数据进行操作和运算，即将HQL语句翻译成MapReduce作业执行。而MapReduce的执行速度是比较慢的，一种改进方案就是使用Spark来进行数据的查找和运算。Hive和Spark的结合使用有两种方式，一种称为Hive on Spark：即将Hive底层的运算引擎由MapReduce切换为Spark，官方文档在这里：Hive on Spark: Getting Started。还有一种方式，可以称之为Spark on Hive：即使用Hive作为Spark的数据源，用Spark来读取HIVE的表数据（数据仍存储在HDFS上）。

2018-09-28

11.2K0

安装和配置Hive

hive 大数据 mapreduce 存储 hadoop

直接通过MapReduce来对存储在Hadoop HDFS上的数据进行查询和分析比较繁琐而且还需要编程。Hive是一个数据仓库系统，构建在HDFS之上，它提供了类似SQL的语法（HQL），可以将HQL翻译成MapReduce作业进行查询，使得对数据的管理和检索更为便利。

2018-09-28

1.9K0

安装和配置Hadoop(单节点)

hadoop 大数据 yarn mapreduce linux

Hadoop生态圈仍处于欣欣向荣的发展态势，不断涌现新的技术和名词。Hadoop的HDFS、YARN、MapReduce仍是最基础的部分，这篇文章记录了如何一步步在linux上安装单节点的Hadoop，之后就可以在它上面做一些练习了。截至目前（2018.7.16），Hadoop的最新版本是3.0.3，但使用最新版本的问题是：当你遇到问题时，所能找到的资料或者书籍都是针对较晚版本的。因此，对一项技术，如果没有达到特别熟悉，安装次新、或者次次新版本是一个相对稳妥的做法。所以，我选择安装的是2.9.1版本。

2018-09-28

2.8K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态