大数据和云计算技术周报(第56期)

写在第56期

“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。

本期会给大家奉献上精彩的:HBase、Zookeeper、模型引擎、云上架构、Spark、Kafka、StreamSets、es+hadoop、Redis、RocketMQ、Tengine、MySQL。全是干货,希望大家喜欢!!!

#大数据和云计算技术社区#希望通过坚持定期分享能帮助同学在大数据学习道路上尽一份微博之力。相信长期坚持认真阅读周报的同学,在技术的道路上一定会日益精进!感谢编辑们的长期坚持!

以下是正文,限于众编辑水平有限,不保证大家都喜欢。

HBase

①随着越来越多的业务选择HBase作为存储引擎,对HBase的可用性要求也越来越高,对于HBase的运维也提出了新的挑战。目前运维集群超过30+,而且接入的业务类型繁多,对于性能要求也不完全一样,这是今年面临的问题。从15年开始,结合京东的业务情况,基于大数据平台,实现用户接入使用全流程自动化。

http://bigdata.51cto.com/art/201701/528383.htm

②本文对Meet Up交流会上滴滴团队分享的专题进行总结,主要围绕HBase特性应用与内核改进,Phoenix改进与实践,GeoMesa应用简介与展望,稳定性&容量规划四个方面进行了详解。滴滴有很多值得学习的地方,推荐一看。

http://click.aliyun.com/m/1000001132

2

MySQL

①最近复习了一下索引,找到了这篇文章,作者把索引的原理讲解的非常透彻,现在研究开源NoSQL产品的比较多,比如HBase,本质上就是在分布式文件系统上建立索引库。所以理解索引对于各种类型的数据库都很重要。

http://blog.codinglabs.org/articles/theory-of-mysql-index.html

②mysql 8.0和pg10对比

https://mp.weixin.qq.com/s/AYDaH8doa-8Y60ILzWKqNg

3

Zookeeper

本文从外围介绍一下Zookeeper是一个什么样子的服务和我们为什么需要这样一种服务

https://www.cnblogs.com/yuyijq/p/3391945.html

4

模型引擎

模型引擎是携程数据服务组对日常开发工作经验的总结和升华,从最贴近实际的场景出发,为模型上线的各环节提供便利。同时,作为一个综合性平台,模型引擎也从特征质量监控、模型调用监控等方面完善了对模型服务质量的把控。

https://mp.weixin.qq.com/s/KrXAKoDh3kohqaMAXfD1bQ

5

云上架构

云上搭建架构不单单需要考虑到性能和可用性,还有安全性、可管理性、弹性等层面都需要注意,实际工作中每一个环节都需要顾及到。

https://mp.weixin.qq.com/s/vJVq1VcoZMkRxLqhcVqjQQ

6

Spark

本文讲解了如何利用Spark框架来实现分布式学习。首先介绍了Spark与深度学习相关的几个核心概念,接着列举了几个开源的深度学习案例,这些开源案例对我们深入学习深度学习大有裨益。

https://towardsdatascience.com/deep-learning-with-apache-spark-part-1-6d397c16abd

7

Kafka

本文主要介绍了Kafka High Level Consumer、Consumer Group、Consumer Rebalance、Low Level Consumer实现的语义和适用场景。以及未来版本中对High Level Consumer的重新设计–使用Consumer Coordinator解决Split Brain和Herd等问题。

https://mp.weixin.qq.com/s/zheqluaR4IY-NVqbE3MXiQ

8

StreamSets

本篇文章Fayson主要介绍如何使用StreamSets实时采集Kafka的数据并将采集的数据写入Hive,StreamSets的流程处理如下:

https://mp.weixin.qq.com/s/xcJYxv_8ncS9lqVFlwlHkQ

9

es+hadoop

es+hadoop最佳实践,实时分析你的数据

https://www.linkedin.com/pulse/elasticsearch-hadoop-best-two-worlds-real-time-analysis-anshul-verma

10

Redis

在介绍 RDB 和 AOF 方案时,不仅介绍它的作用及操作方法,同时介绍持久化实现的一些原理细节及需要注意的问题。最后,介绍在实际使用中,持久化方案的选择,以及经常遇到的问题等。

https://mp.weixin.qq.com/s/ad7DwTPGpACJ34pmP1y_mQ

11

RocketMQ

消息队列之 RocketMQ,从原理到实践,让你对消息队列有不一样的认识

https://mp.weixin.qq.com/s/hSidgPDbIB4hvVq5Pvlvtw

12

Tengine

Tengine是由淘宝网发起的Web服务器项目。它在Nginx的基础上提供了更加强大的支持,相信会有更好的发展

https://mp.weixin.qq.com/s/CaV0RmhEM3aMvo6a_btOYw

致谢:

周蓬勃、王在道、孙亚飞、冯艺帆、陈少军、邓开表、张少华、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉、郭飞、魏宏斌

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2018-06-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

【译文】用R创建云词

在这篇文章中,我会向大家展示如何利用文本数据在R中建立云词。我们会使用一个包含20万个问题的数据集,而这数据集可以在这里下载(感谢reddit网站的用户trex...

2723
来自专栏FreeBuf

键盘敲击识别技术真的靠谱吗?

所有人都知道密码是靠不住的。于是现在有一个有意思的行为生物识别是“你是如何打字的”,或称为输入行为生物识别技术。 生物识别正在广泛推广 大多数网络用户在选择密码...

2295
来自专栏工科狗和生物喵

我的工程师的能力评估和发展

Part 1 虽然是作业,但是我也准备好好地评估一下自己的能力,看看自己到底有多菜鸡,好给自己一个响亮的耳光来督促后面的自我学习!所以我就好好地给自己评估下(参...

3025
来自专栏web前端教室

是什么拉开了前端开发工程师之间的技术差距?

假设所有的前端程序员的技术水平都是0,二三年之后必然会有一些人水平拨尖。那么是什么造成了他们之间的区别呢?就学习态度来讲,好像许多水平平庸的程序员,他们也是经常...

2216
来自专栏Golang语言社区

用医生的思考方式调试你的代码

“现在的编程工作就像是对你需要解决处理的部分做科学研究。” ——Gerald Sussman 设计和维护好的软件就像是一个抵制复杂度的永无止境的奋斗过程。任何足...

34811
来自专栏Android群英传

RootTools·Neo 正式发布

1552
来自专栏FreeBuf

美国数据公司LocalBlox泄露了4800万个人数据记录

又有一个数据泄露成为头条新闻,再次被Upguard的数据泄露猎手发现。美国数据机构LocalBlox在网上暴露了一个不安全的在线AWS库,其中包含部分来自Fac...

881
来自专栏phodal

致JavaScript也将征服的物联网世界

在那篇《最流行的编程语言JavaScript能做什么?》里,我们列举了JavaScript在不同领域的使用情况,今天让我们来详解一下JavaScript在物联网...

3876
来自专栏云计算D1net

SDN网络对云来说是救星

SDN网络起源于当前交换机、路由器、网络协议以及分段工具不能满足对连通性的需求。 云就绪数据中心能够在全世界任何一处不间断提供信息和生产力。云计算模型通过将计算...

3313
来自专栏企鹅号快讯

程序员的核心竞争力是什么?

我们都知道学习能力很重要,那么学习能力从何而来,除了去看书上课这种,如何在实践工作中学习成长? 我之前微博说了一个笼统的概念,什么是能力? 对待问题的态度,以及...

2007

扫码关注云+社区

领取腾讯云代金券