首页
学习
活动
专区
工具
TVP
发布

ICT售前新说

专栏作者
111
文章
144708
阅读量
40
订阅数
必须要懂的Spark内存管理模型
Apache Spark是目前大数据领域主流的内存计算引擎,无论是在批处理还是实时流处理方面都有着广泛的应用。我们跑作业的时候,首先要给Spark Job分配一定的资源,比如一个executor分配5G内存,有时候我们会纠结于executor的内存有多少用于了实际计算。因此就需要了解一下Spark的内存管理,还有就是掌握了Spark的内存模型对于优化我们的作业也至关重要。
ICT售前新说
2019-10-31
7620
Apache Parquet 干货分享
Parquet 是一种面向分析的、通用的列式存储格式,兼容各种数据处理框架比如 Spark、Hive、Impala 等,同时支持 Avro、Thrift、Protocol Buffers 等数据模型。
ICT售前新说
2019-09-04
3.3K0
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档