首页
学习
活动
专区
工具
TVP
发布

北京马哥教育

专栏作者
1832
文章
3336745
阅读量
203
订阅数
鲜为人知的 Python 语法
所有人(好吧,不是所有人)都知道 python 是一门用途广泛、易读、而且容易入门的编程语言。
小小科
2019-09-17
4260
Hadoop 2.0中作业日志收集原理以及配置方法
Hadoop 2.0提供了跟1.0类似的作业日志收集组件,从一定程度上可认为直接重用了1.0的代码模块,考虑到YARN已经变为通用资源管理平台,因此,提供一个通用的日志收集模块势在必行,由于目前通用日志收集模块正在开发中(可参考“YARN-321”),本文仅介绍MRv2(MapReduce On YARN)自带的日志收集模块,包括工作原理以及配置方法。 在Hadoop 2.0中,每个作业日志包含两部分,作业运行日志和任务运行日志,作业运行由MRAppMaster(MapReduce作业的Applicat
小小科
2018-05-04
1.8K0
Hadoop与Spark常用配置参数总结
背景 MapReduce和Spark对外提供了上百个配置参数,用户可以为作业定制这些参数以更快,更稳定的运行应用程序。本文梳理了最常用的一些MapReduce和Spark配置参数。 MapReduce重要配置参数 1. 资源相关参数 (1) mapreduce.map.memory.mb: 一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Task实际使用的资源量超过该值,则会被强制杀死。 (2) mapreduce.reduce.memory.mb: 一个Reduce Ta
小小科
2018-05-04
1.4K0
大数据生态圈到底是一个什么概念?
大数据这个概念本身就太大而且太宽,如果一定要严格定义是非常困难的一件事,不过Hadoop生态圈或者由其延伸的泛生态系统,基本上都是为了处理大量数据诞生的——一般而言,这种数据依赖单机很难完成。 这个圈子里的工具,就像是我们厨房里的各种厨具——各自都有不同的用处,但也有一部分功能重合,比如盆和豌都可以用来喝汤,削皮刀和菜刀都可以用来去皮。 但是,盆用来喝汤未免奇怪,削皮刀切菜也是万万不能。即使你强行要创造一些奇异的组合,即使最终完成工作,却不一定是最快、最好的选择。 大数据,首先你要能存的下大数据。 对传
小小科
2018-05-03
6020
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档