大数据和云计算技术周报(第49期)

写在第49期

“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。

本期会给大家奉献上精彩的:Spark、Kafka Connect、分布式数据库、SQL解析、推荐算法、HBase。全是干货,希望大家喜欢!!!

#大数据和云计算技术社区#希望通过坚持定期分享能帮助同学在大数据学习道路上尽一份微博之力。相信长期坚持认真阅读周报的同学,在技术的道路上一定会日益精进!感谢编辑们的长期坚持!也请同学们继续打赏,支持社区,支持编辑们持续奉献高质量知识!

#大数据和云计算技术社区#长期招募有兴趣参与社区编辑和运营的同学,欢迎扫描文末二维码联系(参与社区工作,收获知识和进步,还有红包哦)。

以下是正文,限于众编辑水平有限,不保证大家都喜欢。

Spark

①本文介绍了分布式计算框架Spark发展由来,并用大量篇幅着重介绍了Spark的基本概念、模块组成、编程模型、运行原理和集群模块,通俗易懂地一层一层地剥开了Spark内部机制,对初学者入门Spark大有裨益。

https://mp.weixin.qq.com/s/mD_GNF4DxIZvpU3j9-qNVw

②spark 的存储体系是。spark core的核心部分之一,也是调度系统,shuffle系统的基础。另外要注意,BlockManagerMaster 是隶属于BlockManager的,通过BlockManagerMaster ,Executor 和 Driver进行通信。看了基本书都说BlockManagerMaster是Driver上的,这个是不准确的,Driver上维护的是BlockManagerMasterEndpoint

https://www.cnblogs.com/cenglinjinran/p/8476199.html

③本文深入地探讨 Structured Streaming 概念、设计详情、容错处理以及 2.3 加入的连续流。

https://mp.weixin.qq.com/s/UULsbulW4YSz6Y_L0ONRjg

2

Kafka Connect

本文介绍如何在E-MapReduce上使用Kafka Connect实现同步RDS binlog数据

https://mp.weixin.qq.com/s/aGqwWNd6Q2Gm2jilxXS0RA

3

分布式数据库

随着大规模互联网应用的广泛出现,分布式数据库成为近两年的一个热门话题。同样,在银行业主推X86限制主机与小型机的背景下,传统的单机数据库逐渐出现了一些瓶颈,马上会面临是否引入分布式数据库的问题。

https://mp.weixin.qq.com/s/ZOelW__ON_86YgXmVeDEwA

4

SQL解析

推荐这篇,SQL解析在美团点评中的应用,写的很深入

https://mp.weixin.qq.com/s/jCFjhkwQpj1_P-seQurPqQ

5

推荐算法

推荐算法具有非常多的应用场景和商业价值,因此对推荐算法值得好好研究。推荐算法种类很多,但是目前应用最广泛的应该是协同过滤类别的推荐算法,用矩阵分解做协同过滤是广泛使用的方法,本文就对矩阵分解在协同过滤推荐算法中的应用做一个总结。

http://www.cnblogs.com/pinard/p/6351319.html

6

HBase

本文讲述了Hbase在搜索和机器学习上的应用实践,并从几方面提出了优化方案,值得借鉴

https://mp.weixin.qq.com/s/rGwaXjAam4GXz4mIg4Mgqg

007

开心一刻

一个同学问我,软件外包是什么。

解释了几句还没明白,遂想了一下:

包工头知道吧?

顿悟!

致谢:

魏宏斌、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2018-05-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏阮一峰的网络日志

网站的肥胖症危机

最近,有一篇文章正在疯传。 它是上个月,Maciej Ceglowski在澳大利亚的一次演讲,名为《网站的肥胖症危机》(文本,视频),反思了互联网开发的现状。 ...

3664
来自专栏Data Analysis & Viz

手把手教你完成一个数据科学小项目(4):评论数变化情况

本系列将全面涉及本项目从爬虫、数据提取与准备、数据异常发现与清洗、分析与可视化等细节,并将代码统一开源在GitHub:DesertsX/gulius-proje...

1458
来自专栏Golang语言社区

【十问十答】对话Go语言开发团队

o是谷歌推出的一门编程语言。熟悉Go语言的开发者都知道其弥补了C语言的不足并且保持了C的极简主义。使用Go编译的程序可以媲美C或C++代码的速度,而且更加安全、...

3486
来自专栏Crossin的编程教室

#夏日编程团#天这么热,没法出去浪,不如趁着宅在空调房里的这两个月,跟我们组团点亮你的编程技能点

最近这天热得不像样子,一非洲游客在天安门广场中暑晕倒……还是选择老老实实窝在房间里吹空调吧。 不过也有些人,学习的热情比气温还高,不写代码就不舒服!(因为会被助...

3497
来自专栏知晓程序

鹅厂美女工程师来告诉你,小程序码是如何「绽放」的 | 晓组织 #20

腾讯 CDC 全称为「用户研究与体验设计中心」,是腾讯公司级设计团队,致力于提升腾讯产品的用户体验,探索互联网生态体验创新。

1512
来自专栏SDNLAB

SDN技术分享(十):GoogleFiber的宽带接入速率控制解决方案

本次分(zhuang)享(bi)呢,主要探讨一个新兴SP客户的案例。 G家,这是非传统的SP。我们一起来看一下G家的市场策略以及使用的关键技术. 内容比较多,我...

49013
来自专栏程序人生

Service performance 101

最近一个月,我和一小撮不专业的美国银行从业人员就「我是不是清白地像于谦那样」(写石灰吟的于谦,不是有三大爱好的那位)反复拉锯,又赶上一大波功能上线和融资相关的事...

34414
来自专栏opengps

[置顶] openGPS.cn - 高精度IP定位原理

关于IP定位,最早是通过运营商实现,每个运营商申请到的ip段,在某个范围内使用。

8536
来自专栏极客生活

最趁手的数据可视化工具Tableau

作为一个数据分析从业者,不但要从杂七杂八的数据中提取有用的数据,而且还要生成漂亮的图表展示出来。

1472
来自专栏程序员宝库

5月编程语言榜:C再度暴涨,Scala成功上位!JMC宣布开源;马化腾回应《腾讯没有梦想》是P的;Riot.js 3.9.5发布

TIOBE 刚刚发布了 5 月编程语言排行榜。Scala 经过长时间的沉淀,本月终于进入了 TIOBE 榜单的前 20 名。Scala 是一种 JVM 上运行的...

1573

扫码关注云+社区

领取腾讯云代金券