写在第39期周报
“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。
本期会给大家奉献上精彩的:Spark编程模型、Spark性能优化、Spark Streaming笔记、HBase数据迁移、HBase如何避免RS OOM、千人千面、线程的基础知识。全是干货,希望大家喜欢!!!
#大数据和云计算技术社区#希望通过坚持定期分享能帮助同学在大数据学习道路上尽一份微博之力。相信长期坚持认真阅读周报的同学,在技术的道路上一定会日益精进!感谢编辑们的长期坚持!
以下是正文,限于众编辑水平有限,不保证大家都喜欢。
1
Spark编程模型
本文由Hadoop的MapReduce思想引出Spark,介绍了Spark运行的核心机制,接着以通俗易懂的方式介绍了包括Application、Driver、SparkContext、Cluter Manager、Worker、Task、Job、Stage、RDD、共享变量、DAGScheduler、TASKSedulter等核心概念,着重从不同角度介绍了RDD内部原理。
https://blog.csdn.net/WYpersist/article/details/79671397
2
Spark性能优化
数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。
https://blog.csdn.net/u012102306/article/details/51556450
3
Spark Streaming笔记
本文对spark stream进行了分析,主要从离散流 transformation,缓存和持久化和checkpoint这几个角度进行了详细的阐述
http://mp.weixin.qq.com/s/_pZ5U-UlZvhPeXuOepO9_w
4
HBase数据迁移
介绍HBase常用的大数据量数据迁移常见的两种方法
http://mp.weixin.qq.com/s/2vYvafdKumJiLToTrSumTA
5
HBase如何避免RS OOM
当堆积到一定程度后,事实上后面的请求等不到server端处理完,可能客户端先超时了。并且一直堆积下去会导致OOM,1G的默认配置需要相对大内存的型号。当达到queue上限,客户端会收到CallQueueTooBigException 然后自动重试。
http://mp.weixin.qq.com/s/6LTNvKIbH3YskZNsLUk_GQ
6
千人千面
本文对58同城智能推荐系统展开介绍,基于58平台产生的各类业务数据和用户积累的丰富的行为数据,采用各类策略对数据进行挖掘分析,最终将结果应用于各类推荐场景。首先会概览整体架构,主要分为数据层、策略层和应用层三层,然后从算法、系统和数据三方面做详细介绍。
http://mp.weixin.qq.com/s/J_PYcKw2HQVSszj7YCHJSQ
7
线程的基础知识
编写正确的程序并不容易,而编写正常的并发程序就更难了;相比于顺序执行的情况,多线程的线程安全问题是微妙而且出乎意料的,因为在没有进行适当同步的情况下多线程中各个操作的顺序是不可预期的。
http://mp.weixin.qq.com/s/9GtIkAVm_QNNIOo1cnNXpA
致谢:
魏宏斌、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉