大数据技术架构-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据技术架构

纯大数据技术分享，HBase/Kafka/Flink等技术栈，原理与实践，源码分析等。欢迎订阅公众号：大数据技术架构

专栏成员

149

文章

352622

阅读量

96

订阅数

HBase原理 | HBase RegionServer宕机数据恢复

TDSQL MySQL 版 hbase 日志数据 unix

HBase采用类LSM的架构体系，数据写入并没有直接写入数据文件，而是会先写入缓存（Memstore），在满足一定条件下缓存数据再会异步刷新到硬盘。为了防止数据写入缓存之后不会因为RegionServer进程发生异常导致数据丢失，在写入缓存之前会首先将数据顺序写入HLog中。如果不幸一旦发生RegionServer宕机或者其他异常，这种设计可以从HLog中进行日志回放进行数据补救，保证数据不丢失。HBase故障恢复的最大看点就在于如何通过HLog回放补救丢失数据。

大数据技术架构

2021-08-25

2.8K0

史上第二全面的HBase读写性能优化总结

hbase TDSQL MySQL 版存储 http 缓存

如果数据吞吐量较大，且一次查询返回的数据量较大，则Rowkey 必须进行散列化处理，同时建表必须进行预分区处理。对于以get为主的查询场景，则将表进行hash预分区，均匀分布；如果以scan为主，则需要兼顾业务场景设计rowkey，在满足查询需求的前提下尽量对数据打散并进行负载均衡。

大数据技术架构

2021-07-05

3K0

HBase运维 | HBase宕机恢复案例一则

从上图可以看到zk中/Hbase/replication/rs的节点信息无法获取，然后我们立马去检查zk日志发现zk已经全部断联而且已经瘫痪，截图如下：

大数据技术架构

2020-06-17

1K0

HBase原理 | HBase Compaction介绍与参数调优

hbase TDSQL MySQL 版

我们知道，数据达到HBase服务端会写WAL-写Memstore，然后定期或满足一定条件时刷写磁盘生成一个HFile文件，随着时间推移生成的HFile会越来越多，将会影响HBase查询性能，同时会对HDFS造成一定影响。因此HBase会定期执行Compaction操作以合并减少HFile数量。

大数据技术架构

2020-05-29

3.1K0

HBase实践 | 使用 Docker 快速上手 HBase

hbase TDSQL MySQL 版

前言：本文主要讲述了如何使用Docker快速上手HBase，省去繁杂的安装部署环境，直接上手，小白必备。适合HBase入门学习及简单代码测试。

大数据技术架构

2020-05-25

7.5K0

HBase实践 | HBase IO优化与高可用建设

hbase 大数据

在CAP能力模型表现方面，hbase主要是面向CP的应用系统，针对数据写入可以满足强一致性需求，从客户端视角来看写入成功之后的数据是即时可见的。然而hbase的CP模型目前还存在很大的短板，比如当有服务节点出现宕机事件时，需要经历很长时间的MTTR过程，耗时主要体现在以下两个方面：

大数据技术架构

2020-05-12

1.6K0

HBase最佳实践 | 合理的Region数量与大小

通常较少的region数量可使群集运行的更加平稳，官方指出每个RegionServer大约100个regions的时候效果最好，理由如下：

大数据技术架构

2020-04-24

5.2K0

HBase原理 | HBase内存管理之MemStore进化论

Java工程中内存管理总是一个绕不过去的知识模块，无论HBase、Flink还是Spark等，如果使用的JVM堆比较大同时对读写延迟等性能有较高要求，一般都会选择自己管理内存，而且一般都会选择使用部分堆外内存。HBase系统中有两块大的内存管理模块，一块是MemStore ，一块是BlockCache，这两块内存的管理在HBase的版本迭代过程中不断进行过各种优化，接下来笔者结合自己的理解，将这两个模块的内存管理迭代过程通过几篇文章梳理一遍，相信很多优化方案在各个系统中都有，举一反三，个人觉得对内核开发有很大的学习意义。本篇文章重点集中介绍MemStore内存管理优化。

大数据技术架构

2020-04-21

1.5K0

HBase实践 | HBase内核优化与吞吐能力建设

公司的hbase集群早先是基于社区1.2.4版本进行搭建的，在时延表现方面起初并不十分理想，受GC尖刺的影响非常严重，针对P99响应时延也只能给业务提供不高于100毫秒的SLA承诺，因此在公司层面接入hbase的业务普遍还是面向近线或者离线场景，而针对时延响应要求比较高的在线业务则没有办法提供能力支持。

大数据技术架构

2020-04-21

1.1K0

HBase调优 | 写入阻塞问题与参数优化

在此过程中，我们经常会遇到写入阻塞问题，表现为数据无法写入，本文我们就来分析可能会引发写入阻塞的几种情况，以及如何尽量避免阻塞问题。

大数据技术架构

2020-04-21

1.9K0

HBase 性能调优第一弹：内存篇

这是使用 HBase 最不可避免的一个话题，就是 HBase 的性能调优，而且通常建立在我们对 HBase 内部运行机制比较了解的基础上进行的，因此无论怎么说，调优这块都是一个相对复杂的事情。这一篇我们先来介绍与 HBase 内存最相关的调优内容。

大数据技术架构

2020-03-11

2.4K0

从原理到参数解析，HBase 刷写与合并机制介绍

HBase 是目前主流的 NoSQL 数据库，是一个高可靠、高性能、高伸缩的分布式 KV 存储系统，本文讲解 HBase 两个核心机制——刷写（Flush）与合并（Compaction），重点介绍其原理及参数配置建议。

大数据技术架构

2020-03-11

9770

HBase 性能测试之读写P999延时压测实践

我们在使用HBase的时候，必须要能够清楚HBase服务端的性能，这对HBase的合理使用以及性能调优都非常重要，所以一般在使用HBase之前，建议做一些必要的基准性能测试，其中，读写P99/P999延时就是一项衡量HBase性能的关键指标。本文首先介绍下HBase自带的性能测试工具——PerformanceEvaluation的使用，然后通过它压测下HBase读写路径P999延时情况。

大数据技术架构

2020-03-11

3.8K0

一文读懂 HBase 核心原理与应用场景

HBase是大数据NoSQL领域里非常重要的分布式KV数据库，是一个高可靠、高性能、高伸缩的分布式存储系统，目前国内知名公司都有在大规模使用，社区也非常活跃。本文就是学习HBase的敲门砖，主要从以下几个方面解读HBase。

大数据技术架构

2020-03-11

2.3K0

京东JDHBase异地多活实践

hbase TDSQL MySQL 版

JDHBase在京东集团作为线上kv存储，承担了大量在线业务，11.11、6.18 均经历了每天万亿级读写访问请求，目前规模达到7000+节点，存储容量达到了90PB。场景涉及商品订单、评价、用户画像、个性推荐、金融风控、物流、监控等700+业务。

大数据技术架构

2020-03-11

1.4K0

网易基于 HBase 的最佳实践

hbase TDSQL MySQL 版 html 大数据数据库

本文根据网易杭州研究院技术专家范欣欣在中国HBase技术社区第3届 MeetUp 杭州站分享的《网易HBase实践》编辑整理而成。

大数据技术架构

2020-03-11

1.5K0

Python happybase 操作 HBase 最佳实践

python hbase TDSQL MySQL 版 jvm

这几天玩了一下Python，不得不说Python真的很好用，但同时也遇到了很多坑。这里主要分享通过Python的happybase模块查询HBase的实践。因为HBase rowkey规则要依赖一个外包jar包，因此也涉及到通过jpype模块在Python中使用Java（这块也是不得已为之）。Python从小白到入门，描述不对的地方请多指出。

大数据技术架构

2019-11-12

2.4K0

Apache Kylin 入门介绍与学习资源

sql hadoop hbase http TDSQL MySQL 版

近日 Kylin v2.6.4 版本发布，包含很多问题修复与各种改进。翻阅三年前写的Kylin测试文档，当时版本还是1.5.3。近两年 Kylin 版本迅速迭代，社区不断发展，已经成为 Hadoop 生态中不可或缺的 OLAP 引擎。

大数据技术架构

2019-10-15

9230

HBase的SQL中间层——Phoenix（附大数据入门指南）

hbase TDSQL MySQL 版 sql http https

大数据依然是当前较为火热的领域，其背后的核心价值是数据。今天分享一个GitHub上一个系类文章，作者是heibaiying，大数据入门指南（2019）地址：https://github.com/heibaiying/BigData-Notes（本文末点击阅读原文进入），内容涉及下图的相关技术。

大数据技术架构

2019-09-10

1.3K0

全网最细致的 HBase 内核解析

hbase TDSQL MySQL 版 zookeeper 大数据缓存

最近在网上看到一篇很好的讲 HBase 架构的文章（原文：https://mapr.com/blog/in-depth-look-hbase-architecture/），简洁明了，图文并茂，所以这里将其翻译成中文分享。图片引用的是原文中的，技术性术语会尽量使用英文，在比较重要的段落后面都会加上我个人理解的点评。

大数据技术架构

2019-08-19

9260

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态