写在第49期
“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。
本期会给大家奉献上精彩的:Spark、Kafka Connect、分布式数据库、SQL解析、推荐算法、HBase。全是干货,希望大家喜欢!!!
#大数据和云计算技术社区#希望通过坚持定期分享能帮助同学在大数据学习道路上尽一份微博之力。相信长期坚持认真阅读周报的同学,在技术的道路上一定会日益精进!感谢编辑们的长期坚持!也请同学们继续打赏,支持社区,支持编辑们持续奉献高质量知识!
#大数据和云计算技术社区#长期招募有兴趣参与社区编辑和运营的同学,欢迎扫描文末二维码联系(参与社区工作,收获知识和进步,还有红包哦)。
以下是正文,限于众编辑水平有限,不保证大家都喜欢。
1
Spark
①本文介绍了分布式计算框架Spark发展由来,并用大量篇幅着重介绍了Spark的基本概念、模块组成、编程模型、运行原理和集群模块,通俗易懂地一层一层地剥开了Spark内部机制,对初学者入门Spark大有裨益。
https://mp.weixin.qq.com/s/mD_GNF4DxIZvpU3j9-qNVw
②spark 的存储体系是。spark core的核心部分之一,也是调度系统,shuffle系统的基础。另外要注意,BlockManagerMaster 是隶属于BlockManager的,通过BlockManagerMaster ,Executor 和 Driver进行通信。看了基本书都说BlockManagerMaster是Driver上的,这个是不准确的,Driver上维护的是BlockManagerMasterEndpoint
https://www.cnblogs.com/cenglinjinran/p/8476199.html
③本文深入地探讨 Structured Streaming 概念、设计详情、容错处理以及 2.3 加入的连续流。
https://mp.weixin.qq.com/s/UULsbulW4YSz6Y_L0ONRjg
2
Kafka Connect
本文介绍如何在E-MapReduce上使用Kafka Connect实现同步RDS binlog数据
https://mp.weixin.qq.com/s/aGqwWNd6Q2Gm2jilxXS0RA
3
分布式数据库
随着大规模互联网应用的广泛出现,分布式数据库成为近两年的一个热门话题。同样,在银行业主推X86限制主机与小型机的背景下,传统的单机数据库逐渐出现了一些瓶颈,马上会面临是否引入分布式数据库的问题。
https://mp.weixin.qq.com/s/ZOelW__ON_86YgXmVeDEwA
4
SQL解析
推荐这篇,SQL解析在美团点评中的应用,写的很深入
https://mp.weixin.qq.com/s/jCFjhkwQpj1_P-seQurPqQ
5
推荐算法
推荐算法具有非常多的应用场景和商业价值,因此对推荐算法值得好好研究。推荐算法种类很多,但是目前应用最广泛的应该是协同过滤类别的推荐算法,用矩阵分解做协同过滤是广泛使用的方法,本文就对矩阵分解在协同过滤推荐算法中的应用做一个总结。
http://www.cnblogs.com/pinard/p/6351319.html
6
HBase
本文讲述了Hbase在搜索和机器学习上的应用实践,并从几方面提出了优化方案,值得借鉴
https://mp.weixin.qq.com/s/rGwaXjAam4GXz4mIg4Mgqg
007
开心一刻
一个同学问我,软件外包是什么。
解释了几句还没明白,遂想了一下:
包工头知道吧?
顿悟!
致谢:
魏宏斌、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉