首页
学习
活动
专区
工具
TVP
发布

大数据技术架构

纯大数据技术分享,HBase/Kafka/Flink等技术栈,原理与实践,源码分析等。欢迎订阅公众号:大数据技术架构
专栏成员
149
文章
352033
阅读量
96
订阅数
HBase原理 | HBase RegionServer宕机数据恢复
HBase采用类LSM的架构体系,数据写入并没有直接写入数据文件,而是会先写入缓存(Memstore),在满足一定条件下缓存数据再会异步刷新到硬盘。为了防止数据写入缓存之后不会因为RegionServer进程发生异常导致数据丢失,在写入缓存之前会首先将数据顺序写入HLog中。如果不幸一旦发生RegionServer宕机或者其他异常,这种设计可以从HLog中进行日志回放进行数据补救,保证数据不丢失。HBase故障恢复的最大看点就在于如何通过HLog回放补救丢失数据。
大数据技术架构
2021-08-25
2.8K0
史上第二全面的HBase读写性能优化总结
如果数据吞吐量较大,且一次查询返回的数据量较大,则Rowkey 必须进行散列化处理,同时建表必须进行预分区处理。对于以get为主的查询场景,则将表进行hash预分区,均匀分布;如果以scan为主,则需要兼顾业务场景设计rowkey,在满足查询需求的前提下尽量对数据打散并进行负载均衡。
大数据技术架构
2021-07-05
3K0
HBase运维 | HBase宕机恢复案例一则
从上图可以看到zk中/Hbase/replication/rs的节点信息无法获取,然后我们立马去检查zk日志发现zk已经全部断联而且已经瘫痪,截图如下:
大数据技术架构
2020-06-17
1K0
HBase原理 | HBase Compaction介绍与参数调优
我们知道,数据达到HBase服务端会写WAL-写Memstore,然后定期或满足一定条件时刷写磁盘生成一个HFile文件,随着时间推移生成的HFile会越来越多,将会影响HBase查询性能,同时会对HDFS造成一定影响。因此HBase会定期执行Compaction操作以合并减少HFile数量。
大数据技术架构
2020-05-29
3.1K0
HBase实践 | 使用 Docker 快速上手 HBase
前言:本文主要讲述了如何使用Docker快速上手HBase,省去繁杂的安装部署环境,直接上手,小白必备。适合HBase入门学习及简单代码测试。
大数据技术架构
2020-05-25
7.5K0
HBase实践 | HBase IO优化与高可用建设
在CAP能力模型表现方面,hbase主要是面向CP的应用系统,针对数据写入可以满足强一致性需求,从客户端视角来看写入成功之后的数据是即时可见的。然而hbase的CP模型目前还存在很大的短板,比如当有服务节点出现宕机事件时,需要经历很长时间的MTTR过程,耗时主要体现在以下两个方面:
大数据技术架构
2020-05-12
1.6K0
HBase最佳实践 | 合理的Region数量与大小
通常较少的region数量可使群集运行的更加平稳,官方指出每个RegionServer大约100个regions的时候效果最好,理由如下:
大数据技术架构
2020-04-24
5.2K0
HBase原理 | HBase内存管理之MemStore进化论
Java工程中内存管理总是一个绕不过去的知识模块,无论HBase、Flink还是Spark等,如果使用的JVM堆比较大同时对读写延迟等性能有较高要求,一般都会选择自己管理内存,而且一般都会选择使用部分堆外内存。HBase系统中有两块大的内存管理模块,一块是MemStore ,一块是BlockCache,这两块内存的管理在HBase的版本迭代过程中不断进行过各种优化,接下来笔者结合自己的理解,将这两个模块的内存管理迭代过程通过几篇文章梳理一遍,相信很多优化方案在各个系统中都有,举一反三,个人觉得对内核开发有很大的学习意义。本篇文章重点集中介绍MemStore内存管理优化。
大数据技术架构
2020-04-21
1.5K0
HBase实践 | HBase内核优化与吞吐能力建设
公司的hbase集群早先是基于社区1.2.4版本进行搭建的,在时延表现方面起初并不十分理想,受GC尖刺的影响非常严重,针对P99响应时延也只能给业务提供不高于100毫秒的SLA承诺,因此在公司层面接入hbase的业务普遍还是面向近线或者离线场景,而针对时延响应要求比较高的在线业务则没有办法提供能力支持。
大数据技术架构
2020-04-21
1.1K0
HBase调优 | 写入阻塞问题与参数优化
在此过程中,我们经常会遇到写入阻塞问题,表现为数据无法写入,本文我们就来分析可能会引发写入阻塞的几种情况,以及如何尽量避免阻塞问题。
大数据技术架构
2020-04-21
1.9K0
HBase 性能调优第一弹:内存篇
这是使用 HBase 最不可避免的一个话题,就是 HBase 的性能调优,而且通常建立在我们对 HBase 内部运行机制比较了解的基础上进行的,因此无论怎么说,调优这块都是一个相对复杂的事情。这一篇我们先来介绍与 HBase 内存最相关的调优内容。
大数据技术架构
2020-03-11
2.4K0
从原理到参数解析,HBase 刷写与合并机制介绍
HBase 是目前主流的 NoSQL 数据库,是一个高可靠、高性能、高伸缩的分布式 KV 存储系统,本文讲解 HBase 两个核心机制——刷写(Flush)与合并(Compaction),重点介绍其原理及参数配置建议。
大数据技术架构
2020-03-11
9700
HBase 性能测试之读写P999延时压测实践
我们在使用HBase的时候,必须要能够清楚HBase服务端的性能,这对HBase的合理使用以及性能调优都非常重要,所以一般在使用HBase之前,建议做一些必要的基准性能测试,其中,读写P99/P999延时就是一项衡量HBase性能的关键指标。本文首先介绍下HBase自带的性能测试工具——PerformanceEvaluation的使用,然后通过它压测下HBase读写路径P999延时情况。
大数据技术架构
2020-03-11
3.8K0
一文读懂 HBase 核心原理与应用场景
HBase是大数据NoSQL领域里非常重要的分布式KV数据库,是一个高可靠、高性能、高伸缩的分布式存储系统,目前国内知名公司都有在大规模使用,社区也非常活跃。本文就是学习HBase的敲门砖,主要从以下几个方面解读HBase。
大数据技术架构
2020-03-11
2.3K0
京东JDHBase异地多活实践
JDHBase在京东集团作为线上kv存储,承担了大量在线业务,11.11、6.18 均经历了每天万亿级读写访问请求,目前规模达到7000+节点,存储容量达到了90PB。场景涉及商品订单、评价、用户画像、个性推荐、金融风控、物流、监控等700+业务。
大数据技术架构
2020-03-11
1.4K0
网易基于 HBase 的最佳实践
本文根据网易杭州研究院技术专家范欣欣在中国HBase技术社区第3届 MeetUp 杭州站分享的《网易HBase实践》编辑整理而成。
大数据技术架构
2020-03-11
1.5K0
Python happybase 操作 HBase 最佳实践
这几天玩了一下Python,不得不说Python真的很好用,但同时也遇到了很多坑。这里主要分享通过Python的happybase模块查询HBase的实践。因为HBase rowkey规则要依赖一个外包jar包,因此也涉及到通过jpype模块在Python中使用Java(这块也是不得已为之)。Python从小白到入门,描述不对的地方请多指出。
大数据技术架构
2019-11-12
2.4K0
Apache Kylin 入门介绍与学习资源
近日 Kylin v2.6.4 版本发布,包含很多问题修复与各种改进。翻阅三年前写的Kylin测试文档,当时版本还是1.5.3。近两年 Kylin 版本迅速迭代,社区不断发展,已经成为 Hadoop 生态中不可或缺的 OLAP 引擎。
大数据技术架构
2019-10-15
9200
HBase的SQL中间层——Phoenix(附大数据入门指南)
大数据依然是当前较为火热的领域,其背后的核心价值是数据。今天分享一个GitHub上一个系类文章,作者是heibaiying,大数据入门指南(2019)地址:https://github.com/heibaiying/BigData-Notes(本文末点击阅读原文进入),内容涉及下图的相关技术。
大数据技术架构
2019-09-10
1.3K0
全网最细致的 HBase 内核解析
最近在网上看到一篇很好的讲 HBase 架构的文章(原文:https://mapr.com/blog/in-depth-look-hbase-architecture/),简洁明了,图文并茂,所以这里将其翻译成中文分享。图片引用的是原文中的,技术性术语会尽量使用英文,在比较重要的段落后面都会加上我个人理解的点评。
大数据技术架构
2019-08-19
9260
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档