前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >​大数据和云计算技术周报(第39期)

​大数据和云计算技术周报(第39期)

作者头像
大数据和云计算技术
发布2018-07-26 15:42:33
3170
发布2018-07-26 15:42:33
举报

写在第39期周报

“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。

本期会给大家奉献上精彩的:Spark编程模型、Spark性能优化、Spark Streaming笔记、HBase数据迁移、HBase如何避免RS OOM、千人千面、线程的基础知识。全是干货,希望大家喜欢!!!

#大数据和云计算技术社区#希望通过坚持定期分享能帮助同学在大数据学习道路上尽一份微博之力。相信长期坚持认真阅读周报的同学,在技术的道路上一定会日益精进!感谢编辑们的长期坚持!

以下是正文,限于众编辑水平有限,不保证大家都喜欢。

Spark编程模型

本文由Hadoop的MapReduce思想引出Spark,介绍了Spark运行的核心机制,接着以通俗易懂的方式介绍了包括Application、Driver、SparkContext、Cluter Manager、Worker、Task、Job、Stage、RDD、共享变量、DAGScheduler、TASKSedulter等核心概念,着重从不同角度介绍了RDD内部原理。

https://blog.csdn.net/WYpersist/article/details/79671397

Spark性能优化

数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。

https://blog.csdn.net/u012102306/article/details/51556450

3

Spark Streaming笔记

本文对spark stream进行了分析,主要从离散流 transformation,缓存和持久化和checkpoint这几个角度进行了详细的阐述

http://mp.weixin.qq.com/s/_pZ5U-UlZvhPeXuOepO9_w

4

HBase数据迁移

介绍HBase常用的大数据量数据迁移常见的两种方法

http://mp.weixin.qq.com/s/2vYvafdKumJiLToTrSumTA

5

HBase如何避免RS OOM

当堆积到一定程度后,事实上后面的请求等不到server端处理完,可能客户端先超时了。并且一直堆积下去会导致OOM,1G的默认配置需要相对大内存的型号。当达到queue上限,客户端会收到CallQueueTooBigException 然后自动重试。

http://mp.weixin.qq.com/s/6LTNvKIbH3YskZNsLUk_GQ

6

千人千面

本文对58同城智能推荐系统展开介绍,基于58平台产生的各类业务数据和用户积累的丰富的行为数据,采用各类策略对数据进行挖掘分析,最终将结果应用于各类推荐场景。首先会概览整体架构,主要分为数据层、策略层和应用层三层,然后从算法、系统和数据三方面做详细介绍。

http://mp.weixin.qq.com/s/J_PYcKw2HQVSszj7YCHJSQ

7

线程的基础知识

编写正确的程序并不容易,而编写正常的并发程序就更难了;相比于顺序执行的情况,多线程的线程安全问题是微妙而且出乎意料的,因为在没有进行适当同步的情况下多线程中各个操作的顺序是不可预期的。

http://mp.weixin.qq.com/s/9GtIkAVm_QNNIOo1cnNXpA

致谢:

魏宏斌、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-04-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据和云计算技术 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档