云​大数据和计算技术周报

写在第45期

“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。

本期会给大家奉献上精彩的:分布式锁、开源软件名字来源、Kafka消息格式、数据处理方式比较、Apache Kylin、Spark Streaming 、Spark Core、HBase运维基础。全是干货,希望大家喜欢!!!

#大数据和云计算技术社区#希望通过坚持定期分享能帮助同学在大数据学习道路上尽一份微博之力。相信长期坚持认真阅读周报的同学,在技术的道路上一定会日益精进!感谢编辑们的长期坚持!也请同学们继续打赏,支持社区,支持编辑们持续奉献高质量知识!

特别提醒,文末有惊喜!

以下是正文,限于众编辑水平有限,不保证大家都喜欢。

分布式锁

锁的作用是让多个线程同步(one by one)去执行一段代码(访问某个资源,如多个线程访问同一个账户),所以锁的概念是针对多线程而言的。

2

开源软件名字来源

今天我们一起来看看这11个开源项目的名字是怎么来的

3

Kafka消息格式

对于一个成熟的消息中间件而言,消息格式不仅关系到功能维度的扩展,还牵涉到性能维度的优化。随着Kafka的迅猛发展,其消息格式也在不断的升级改进,从0.8.x版本开始到现在的1.1.x版本,Kafka的消息格式也经历了3个版本。本文这里主要来讲述Kafka的三个版本的消息格式的演变。

4

数据处理方式比较

对数据的处理,有ETL方式;有写MapReduce,有Hive和Spark进行数据清洗等几种方式,可以说每种方式都有各自的使用场景,文中对不同的使用场景做了分别的阐述

5

Apache Kylin

本文主要通过 Apache Kylin 线上查询机大量线程 Blocked Case 的分析过程,说明在 Apache Kylin 中 SQL 使用正确数据类型的重要性,最后再通过我近期解决的一些实际问题,来简单总结下计算机工程师解决问题的常规思路和手段。

6

Spark Streaming

本文结合Spark官网Demo以及作者的实践,详细讲解了Spark从不同数据源获取数据并进行并行处理的一些基本技巧和核心概念,对初学者了解Spark大有裨益,也是了解Spark Streaming编程技巧的入门指南。

http://www.cnblogs.com/swordfall/p/8378000.html

7

Spark Core

sorted shuffle write 流程上来说:将shuffleMapTask的结果写内存,写的时候会抽样扩内存,到一定上限的时候将数据spill物化,在写硬盘的过程中根据需要以partition以及key作为key进行排序,排序是类似于归并外排的方法。如果需要在map端聚合用PartitionedAppendOnlyMap这个数据结构、不需要在map端聚会用PartitionedPairBuffer这个数据结构。map端是如何知道呢,因为map 端持有下游rdd(下一个stage )的 dependency,这个东西里面就有一系列map操作的指导信息。

https://www.jianshu.com/p/ac41682c5d16

8

HBase运维基础

本文就HBase运维的原理基础开始入手,重点讲解数据完整性,以及元数据“逆向工程”恢复数据完整性的原理方法。开启后续一系列的HBase运维知识讲解。

009

开心一刻

有位大爷去人民银行取钱,直接走到窗口,保安过来说:“大爷,按号。” 大爷:“啥?” 保安:“按号。” 大爷心想,不愧是大银行呀,取个钱还要暗号,于是低声对保安说:“天王盖地虎。” 保安无奈的帮老爷子按出一张排队票,老爷子心想:吓死我了,居然被我蒙对了!!

致谢:

魏宏斌、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180507G071HP00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券