SAMshare-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

SAMshare

专栏成员

272

文章

311425

阅读量

39

订阅数

一起揭开 YARN 的神秘面纱

yarn node.js 容器 mapreduce

我们知道MapReduce1.0，是把计算框架和资源调度框架都弄在一起了，所以Master端的JobTracker会大包大揽去执行任务，存在很多问题，比如资源分配不均、单点故障会导致整个集群不可用、没办法集成多个不同的计算框架（比如Spark、Storm）。因此，YARN的设计思路就是把原先JobTracker的资源管理调度和监控的功能剥离出来，在YARN中实现，而MapReduce2.0仅仅就是做计算框架的事情。同时，YARN还可以兼容搭建多个不同的计算框架，实现同一个集群内资源和数据的共享。

2021-10-19

4950

一起揭开 Hive 编程的神秘面纱

hive hadoop sql 大数据 mapreduce

Hadoop实现了一个特别的计算模型，就是MapReduce，可以将我们的计算任务分拆成多个小的计算单元，然后分配到家用或者服务器级别的硬件机器上，从而达到降低成本以及可扩展的问题，在这个MapReduce计算模型底下，有一个分布式文件系统（HDFS），在支持分布式计算上极其重要。

2021-09-29

5460

一文带你搞清楚什么是“数据倾斜”

mapreduce 编程算法 hadoop

我们在用hive取数的时候，有的时候只是跑一个简单的join语句，但是却跑了很长的时间，有的时候我们会觉得是集群资源不够导致的，但是很大情况下就是出现了"数据倾斜"的情况。

2019-10-08

7880

BigData |述说Apache Spark

spark apache mapreduce api hadoop

Spark是一个Apache项目，被标榜为"Lightning-Fast"的大数据处理工具，它的开源社区也是非常活跃，与Hadoop相比，其在内存中运行的速度可以提升100倍。Apache Spark在Java、Scale、Python和R语言中提供了高级API，还支持一组丰富的高级工具，如Spark SQL（结构化数据处理）、MLlib（机器学习）、GraphX（图计算）、SparkR（统计分析）以及Spark Streaming（处理实时数据）。

2019-08-21

6940

BigData | 一文带你搞清楚"数据倾斜"（上）

mapreduce 编程算法 hadoop sql

我们在用hive取数的时候，有的时候只是跑一个简单的join语句，但是却跑了很长的时间，有的时候我们会觉得是集群资源不够导致的，但是很大情况下就是出现了"数据倾斜"的情况。

2019-08-21

9120

BigData | 一文带你搞清楚"数据倾斜"

mapreduce 编程算法 hadoop

我们在用hive取数的时候，有的时候只是跑一个简单的join语句，但是却跑了很长的时间，有的时候我们会觉得是集群资源不够导致的，但是很大情况下就是出现了"数据倾斜"的情况。

2019-07-08

6950

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态