LhWorld哥陪你聊算法-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

LhWorld哥陪你聊算法

欢迎大家微信公众号LHWorld 带你领略算法和大数据的魅力；主页地址：https://blog.csdn.net/LHWorldBlog

专栏成员

159

文章

253189

阅读量

42

订阅数

【Spark篇】---Spark中内存管理和Shuffle参数调优

spark jvm 存储大数据 ide

Spark执行应用程序时，Spark集群会启动Driver和Executor两种JVM进程，Driver负责创建SparkContext上下文，提交任务，task的分发等。Executor负责task的计算任务，并将结果返回给Driver。同时需要为需要持久化的RDD提供储存。Driver端的内存管理比较简单，这里所说的Spark内存管理针对Executor端的内存管理。

LhWorld哥陪你聊算法

2018-09-13

1.4K0

【CDH篇】---CDH从初识到搭建到应用

apache hadoop 存储分布式大数据

CDH（Cloudera's Distribution, including Apache Hadoop）是Hadoop众多分支中的一种，由Cloudera维护，基于稳定版本的Apache Hadoop构建提供了Hadoop的核心可扩展存储、分布式计算基于Web的用户界面。简单来说CDH就是把我们知道的大数据家族组件进行了一个组合，然后提供了一个WEB-UI的页面，使原来的搭建操作变得非常简单。CDH架构图如下：

LhWorld哥陪你聊算法

2018-09-13

2.9K0

【Impala篇】---Hue从初始到安装应用

hbase sql hive 大数据数据分析

Cloudera公司推出，提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。基于Hive使用内存计算，兼顾数据仓库、具有实时、批处理、多并发等优点是CDH平台首选的PB级大数据实时查询分析引擎.一般公司选择使用CDH部署集群，可以考虑下Impala。

LhWorld哥陪你聊算法

2018-09-13

1.6K0

【Spark篇】---Spark初始

spark mapreduce hadoop 大数据 apache

Spark是基于内存的计算框架，性能要优于Mapreduce，可以实现hadoop生态圈中的多个组件，是一个非常优秀的大数据框架，是Apache的顶级项目。One stack rule them all 霸气。

LhWorld哥陪你聊算法

2018-09-13

9970

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态