写在第41期
“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。
本期会给大家奉献上精彩的:Spark Streaming、消息中间件、监控报警、规则引擎、Hadoop、推荐系统、Redis。全是干货,希望大家喜欢!!!
#大数据和云计算技术社区#希望通过坚持定期分享能帮助同学在大数据学习道路上尽一份微博之力。相信长期坚持认真阅读周报的同学,在技术的道路上一定会日益精进!感谢编辑们的长期坚持!
以下是正文,限于众编辑水平有限,不保证大家都喜欢。
1
spark streaming
1)本文讲解了Spark Streaming应用中如何有效地控制offsets的各种方式,这些方法能够帮助用户在持续不断地计算和存储数据应用中更好地面对应用失效和数据恢复的场景。
https://mp.weixin.qq.com/s/0ngh1QDOeVeJGkPcaDVhVA
2)单元测试是阻挡 bug 的第一道防线,不写单元测试的程序员不是一个合格的程序员,有了单元测试后,妈妈再也不用担心我进行重构了,今天我来谈下如何对 spark streaming 来进行单元测试
https://mp.weixin.qq.com/s/yY9YrBrV5ic7A2SzuBT-Cg
2
消息中间件
本文列举了常用的消息中间件并进行了场景和关键纬度的对比分析,在消息中间件的选择上有一定的参考价值
https://mp.weixin.qq.com/s/7pr53ASzRT4HMyCuzmCNLQ
3
监控报警
这篇文章,从监控系统角度来讲虽然不算完备,但是基本上把监控系统中 告警模块的工作原理阐述的差不多了。告警模块无疑是监控系统中最关键的一个模块,任何业务逻辑映射的告警规则,最终都需要告警模块进行告警状态计算。 因为告警规则在业务量上来之后是大量或者海量的,所以其实可能还应该考虑告警模块的分布式计算处理等负载问题。
https://mp.weixin.qq.com/s/k0OxUpZZ0ZNFYUZ_di7Zsg
4
规则引擎
规则引擎是处理复杂规则集合的引擎。通过输入一些基础事件,以推演或者归纳等方式,得到最终的执行结果。规则引擎的核心作用在于将复杂、易变的规则从系统中抽离出来,由灵活可变的规则来描述业务需求
https://mp.weixin.qq.com/s/UYN4cxH4gT0WsFTrBKRKGA
5
Hadoop
Hive在进行复杂HiveQL语句操作时,HDFS中的小block块会给Hadoop的扩展性和性能带来严重的影响。本文从Hive的输入输出参数配置、Hadoop的归档格式、表的存储格式三个方面入手,详细介绍了避免小文件过多的解决方案。
https://mp.weixin.qq.com/s/Hu9THK4437A1nZWw8xLdow?ref=myread
6
推荐系统
“基于 MaxCompute 搭建社交好友推荐系统”,主要对大数据在好友推荐系统中的应用、好友推荐系统的分析模型、好友推荐系统在阿里云上的实现方式和 MaxCompute 技术进行了介绍。
https://mp.weixin.qq.com/s/8M7PkTa133t7gdX9My6HyA
7
Redis
详解redis内存模型
https://mp.weixin.qq.com/s/YGmOoBZ7J-3dPrNntRTfSg
致谢:
魏宏斌、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉