大数据和云计算技术周报（第39期）

大数据和云计算技术

发布于 2018-07-26 15:42:33

3410

发布于 2018-07-26 15:42:33

文章被收录于专栏：大数据和云计算技术

写在第39期周报

“大数据” 三个字其实是个marketing语言，从技术角度看，包含范围很广，计算、存储、网络都涉及，知识点广、学习难度高。

本期会给大家奉献上精彩的：Spark编程模型、Spark性能优化、Spark Streaming笔记、HBase数据迁移、HBase如何避免RS OOM、千人千面、线程的基础知识。全是干货，希望大家喜欢！！！

#大数据和云计算技术社区#希望通过坚持定期分享能帮助同学在大数据学习道路上尽一份微博之力。相信长期坚持认真阅读周报的同学，在技术的道路上一定会日益精进！感谢编辑们的长期坚持！

以下是正文，限于众编辑水平有限，不保证大家都喜欢。

１

Spark编程模型

本文由Hadoop的MapReduce思想引出Spark，介绍了Spark运行的核心机制，接着以通俗易懂的方式介绍了包括Application、Driver、SparkContext、Cluter Manager、Worker、Task、Job、Stage、RDD、共享变量、DAGScheduler、TASKSedulter等核心概念，着重从不同角度介绍了RDD内部原理。

https://blog.csdn.net/WYpersist/article/details/79671397

２

Spark性能优化

数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。

https://blog.csdn.net/u012102306/article/details/51556450

Spark Streaming笔记

本文对spark stream进行了分析，主要从离散流 transformation,缓存和持久化和checkpoint这几个角度进行了详细的阐述

http://mp.weixin.qq.com/s/_pZ5U-UlZvhPeXuOepO9_w

HBase数据迁移

介绍HBase常用的大数据量数据迁移常见的两种方法

http://mp.weixin.qq.com/s/2vYvafdKumJiLToTrSumTA

HBase如何避免RS OOM

当堆积到一定程度后，事实上后面的请求等不到server端处理完，可能客户端先超时了。并且一直堆积下去会导致OOM，1G的默认配置需要相对大内存的型号。当达到queue上限，客户端会收到CallQueueTooBigException 然后自动重试。

http://mp.weixin.qq.com/s/6LTNvKIbH3YskZNsLUk_GQ

千人千面

本文对58同城智能推荐系统展开介绍，基于58平台产生的各类业务数据和用户积累的丰富的行为数据，采用各类策略对数据进行挖掘分析，最终将结果应用于各类推荐场景。首先会概览整体架构，主要分为数据层、策略层和应用层三层，然后从算法、系统和数据三方面做详细介绍。

http://mp.weixin.qq.com/s/J_PYcKw2HQVSszj7YCHJSQ

线程的基础知识

编写正确的程序并不容易，而编写正常的并发程序就更难了；相比于顺序执行的情况，多线程的线程安全问题是微妙而且出乎意料的，因为在没有进行适当同步的情况下多线程中各个操作的顺序是不可预期的。

http://mp.weixin.qq.com/s/9GtIkAVm_QNNIOo1cnNXpA

致谢：

魏宏斌、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-04-16，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自大数据和云计算技术微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度