首页
学习
活动
专区
工具
TVP
发布

最新最全的大数据技术体系

专栏作者
717
文章
542204
阅读量
33
订阅数
助力工业物联网,工业大数据项目之数据采集
问题1:程序已提交YARN,但是无法运行,报错:Application is added to the scheduler and is not activated. User’s AM resource limit exceeded.
Maynor
2023-02-03
4950
工作常用之Yarn详解【五】资源调度与隔离
在YARN中,资源管理由ResourceManager和NodeManager共同完成,其中,ResourceManager中的调度器负责资源的分配,而NodeManager则负责资源的供给和隔离。
Maynor
2022-12-02
1.2K0
工作常用之Spark调优【二】资源调优
先设定单个 Executor 核数,根据 Yarn 配置得出每个节点最多的 Executor 数量,每个节
Maynor
2022-11-28
4830
工作常用之Spark调优【一】
Spark 3.0 大版本发布, Spark SQL 的优化占比将近 50% 。 Spark SQL 取代 Spark Core ,成
Maynor
2022-11-28
3480
工作常用之Spark调优[二】资源调优
先设定单个 Executor 核数,根据 Yarn 配置得出每个节点最多的 Executor 数量,每个节
Maynor
2022-09-27
6540
工作常用之Spark调优一】
Spark 3.0 大版本发布, Spark SQL 的优化占比将近 50% 。 Spark SQL 取代 Spark Core ,成
Maynor
2022-09-27
4290
【Spark】 Spark的基础环境 Day03
​ 当Spark Application运行到YARN上时,在提交应用时指定master为yarn即可,同时需要告知YARN集群配置信息(比如ResourceManager地址信息),此外需要监控Spark Application,配置历史服务器相关属性。
Maynor
2022-05-08
4380
❤️hadoop常用命令总结及百万调优❤️
以下参数是在用户自己的MR应用程序中配置就可以生效(mapred-default.xml)
Maynor
2022-05-08
2940
Spark_Day01:Spark 框架概述和Spark 快速入门
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4yHXs6Sp-1627098349792)(/img/image-20210419160056620.png)]
Maynor
2022-05-08
5690
一图胜千言:大数据入门必备的16张数据流转图(建议收藏)
以上便是本码农总结的15张大数据开发必背的数据流转图,有事没事拿出来看一看,潜移默化自然就记下来了~
Maynor
2022-05-08
3.1K0
hadoop常用命令总结及百万调优
以下参数是在用户自己的MR应用程序中配置就可以生效(mapred-default.xml)
Maynor
2021-12-07
3030
Note_Spark_Day01:Spark 框架概述和Spark 快速入门
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4yHXs6Sp-1627098349792)(/img/image-20210419160056620.png)]
Maynor
2021-12-07
7740
Note_Spark_Day01:Spark 基础环境
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5Rk9bK5g-1625406507847)(/img/image-20210419160056620.png)]
Maynor
2021-12-07
5770
【Spark】 Spark的基础环境 Day02
​ 当Spark Application运行到YARN上时,在提交应用时指定master为yarn即可,同时需要告知YARN集群配置信息(比如ResourceManager地址信息),此外需要监控Spark Application,配置历史服务器相关属性。
Maynor
2021-12-07
3110
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day26】——Spark13
5)计算各分区时优先的位置列表(可选),比如从HDFS上的文件生成RDD时,RDD分区的位置优先选择数据所在的节点,这样可以避免数据移动带来的开销。
Maynor
2021-12-07
2070
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day21】——Spark8
1)运行ApplicationMaster的Container:这是由ResourceManager(向内部的资源调度器)申请和启动的,用户提交应用程序时, 可指定唯一的ApplicationMaster所需的资源; 2)运行各类任务的Container:这是由ApplicationMaster向ResourceManager申请的,并由ApplicationMaster与NodeManager通信以启动之。
Maynor
2021-12-07
1820
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day20】——Spark7
可以减少数据的体积,减少存储空间,高效存储和传输数据,不好的是使用的时候要反序列化,非常消耗CPU。 配,用完了就立即回收资源,启动会麻烦一点,启动一次分配一次,会比较麻烦。
Maynor
2021-12-07
1670
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day14】——Spark1
为什么要进行持久化? spark所有复杂一点的算法都会有persist身影,spark默认数据放在内存,spark很多内容都是放在内存的,非常适合高速迭代,1000个步骤只有第一个输入数据,中间不产生临时数据,但分布式系统风险很高,所以容易出错,就要容错,rdd出错或者分片可以根据血统算出来,如果没有对父rdd进行persist 或者cache优化,就需要重头做。 以下场景会使用persist 1)某个步骤计算非常耗时,需要进行persist持久化 2)计算链条非常长,重新恢复要算很多步骤,很好使,persist 3)checkpoint所在的rdd要持久化persist。checkpoint前,要持久化,写个rdd.cache或者rdd.persist,将结果保存起来,再写checkpoint操作,这样执行起来会非常快,不需要重新计算rdd链条了。checkpoint之前一定会进行persist。 4)shuffle之后要persist,shuffle要进性网络传输,风险很大,数据丢失重来,恢复代价很大 5)shuffle之前进行persist,框架默认将数据持久化到磁盘,这个是框架自动做的。
Maynor
2021-12-07
2110
一道Spark练习题
涉及的知识点 (1)Local:运行在一台机器上,通常是练手或者测试环境。 (2)Standalone:构建一个基于 Master+Slaves 的资源调度集群,Spark 任务提交给 Master 运行。是 Spark 自身的一个调度系统。 (3)Yarn: Spark 客户端直接连接 Yarn, 不需要额外构建 Spark 集群。有 yarn-client 和 yarn-cluster 两种模式,主要区别在于:Driver 程序的运行节点。 (4)Mesos:国内大环境比较少用
Maynor
2021-12-07
1500
一图胜千言:大数据入门必备的15张数据流转图(建议收藏)
以上便是本码农总结的15张大数据开发必背的数据流转图,有事没事拿出来看一看,潜移默化自然就记下来了~
Maynor
2021-07-01
9070
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档