腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

北京马哥教育

专栏作者

1832

文章

3324640

阅读量

203

订阅数

Hadoop与Spark常用配置参数总结

jar mapreduce spark

背景 MapReduce和Spark对外提供了上百个配置参数，用户可以为作业定制这些参数以更快，更稳定的运行应用程序。本文梳理了最常用的一些MapReduce和Spark配置参数。 MapReduce重要配置参数 1. 资源相关参数 (1) mapreduce.map.memory.mb: 一个Map Task可使用的资源上限（单位:MB），默认为1024。如果Map Task实际使用的资源量超过该值，则会被强制杀死。 (2) mapreduce.reduce.memory.mb: 一个Reduce Ta

2018-05-04

1.4K0

大数据生态圈到底是一个什么概念？

sql hive mapreduce spark 数据处理

大数据这个概念本身就太大而且太宽，如果一定要严格定义是非常困难的一件事，不过Hadoop生态圈或者由其延伸的泛生态系统，基本上都是为了处理大量数据诞生的——一般而言，这种数据依赖单机很难完成。这个圈子里的工具，就像是我们厨房里的各种厨具——各自都有不同的用处，但也有一部分功能重合，比如盆和豌都可以用来喝汤，削皮刀和菜刀都可以用来去皮。但是，盆用来喝汤未免奇怪，削皮刀切菜也是万万不能。即使你强行要创造一些奇异的组合，即使最终完成工作，却不一定是最快、最好的选择。大数据，首先你要能存的下大数据。对传

2018-05-03

6020

Spark：一个高效的分布式计算系统

spark 分布式

马哥linux运维 | 最专业的linux培训机构 ---- 概述什么是Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。其架构如下图所示：

2018-05-02

2.2K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态