腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

暴走大数据

专栏作者

298

文章

535521

阅读量

99

订阅数

HBase BulkLoad 原理及批量写入数据实战

大数据存储 hbase TDSQL MySQL 版 jar

之前我们介绍了HBASE的存储机制，HBASE存储数据其底层使用的是HDFS来作为存储介质，HBASE的每一张表对应的HDFS目录上的一个文件夹，文件夹名是以HBASE表的名字来命名（如果没有使用命名空间，那么默认是在default目录下）。在表文件夹下存放着若干个region命名的文件夹，而region文件夹中的每个列族也是用文件夹进行存储的，每个列族中存储的就是实际的数据，以HFile的形式存在。

大数据真好玩

2022-12-05

1.2K0

Hbase WAL日志数据实时增量推送至Kafka

hbase TDSQL MySQL 版 kafka rpc 批量计算

Hbase提供了跨集群的数据同步方式Replication,可通过自定义Replication Endpoint，把消息写入kafka，先来了解Hbase Replication集群之间进行复制同步的过程，整体数据复制流程如下图：

大数据真好玩

2022-04-27

1.4K0

上帝视角Hbase二级索引方案全解析

hbase TDSQL MySQL 版 apache sql lucene/solr

HBase中的一级索引指数据在写入region时，会根据rowkey进行排序后写入，之后regionserver在加载region时，会自动为当前region的rowkey创建一个LSM树的索引,方便对当前region,rowkey的查询。

大数据真好玩

2021-11-16

1.1K0

HBase RowKey与索引设计 |「Hbase2.0常见问题性优化小总结续集」

hbase TDSQL MySQL 版数据库大数据数据处理

hbase的内部使用KeyValue的形式存储，其key时rowKey：family:column:logTime,value是其存储的内容。

大数据真好玩

2021-11-05

1.4K0

ElasticSearch 双数据中心建设在新网银行的实践

Elasticsearch Service 大数据 hbase TDSQL MySQL 版

本文公众号读者飞熊的投稿，本文主要讲述了ElasticSearch 双数据中心建设在新网银行的实践。

大数据真好玩

2021-07-07

1K0

一篇并不起眼的Hbase面试题

hbase TDSQL MySQL 版大数据数据库 sql

Client写入 -> 存入MemStore，一直到MemStore满 -> Flush成一个StoreFile，直至增长到一定阈值 -> 触发Compact合并操作 -> 多个StoreFile合并成一个StoreFile，同时进行版本合并和数据删除 -> 当StoreFiles Compact后，逐步形成越来越大的StoreFile -> 单个StoreFile大小超过一定阈值后（默认10G），触发Split操作，把当前Region Split成2个Region，Region会下线，新Split出的2个孩子Region会被HMaster分配到相应的HRegionServer 上，使得原先1个Region的压力得以分流到2个Region上

大数据真好玩

2021-07-07

3780

Hbase性能优化百科全书

hbase TDSQL MySQL 版缓存数据库 sql

本文集合了小编在日常学习和生产实践中遇到的使用Hbase中的各种问题和优化方法，分别从表设计、rowkey设计、内存、读写、配置等各个领域对Hbase常用的调优方式进行了总结，希望能对读者有帮助。本文参考结合自己实际优化经验，参考了大量官网和各个前辈的经验，调优后生产环境中的Hbase集群支撑了约50万/s的读和25万/s的写流量洪峰。感谢各位的经验和付出。

大数据真好玩

2021-01-27

1.1K0

多套Kylin集群共享Hbase和Hadoop计算集群关键配置最佳实践

node.js hadoop html hbase 大数据

由于Kylin的本身架构（广播特性）和业务特点通常不适用于单套Kylin集群的节点过多，通常大家采用拆分Kylin集群但是共用底层的Hbase集群和计算集群的方式进行部署。本文主要根据目前咱们的实践经验对于此种场景集群配置进行分享，希望对大家有所帮助。

大数据真好玩

2021-01-26

9000

【大数据哔哔集20210112】Sorry，Hbase的LSM Tree真的可以为所欲为！

数据库 sql hbase TDSQL MySQL 版存储

LSM树是HBase里使用的非常有创意的一种数据结构。在有代表性的关系型数据库如MySQL、SQL Server、Oracle中，数据存储与索引的基本结构就是我们耳熟能详的B树和B+树。而在一些主流的NoSQL数据库如HBase、Cassandra、LevelDB、RocksDB中，则是使用日志结构合并树（Log-structured Merge Tree，LSM Tree）来组织数据。

大数据真好玩

2021-01-21

5270

Flink写出数据到HBase的Sink实现

hbase TDSQL MySQL 版面向对象编程

文章目录一、MyHbaseSink 1、继承RichSinkFunction<输入的数据类型>类 2、实现open方法，创建连接对象 3、实现invoke方法，批次写入数据到Hbase 4、实现close方法，关闭连接二、HBaseUtil工具类一、MyHbaseSink 1、继承RichSinkFunction<输入的数据类型>类 public class MyHbaseSink extends RichSinkFunction<Tuple2<String, Double>> { priv

大数据真好玩

2020-08-11

5K0

Kylin在用户行为轨迹分析中的应用实践与优化

hbase TDSQL MySQL 版 sql hive

2015年12月8日，Apache Kylin 从 Apache 孵化器项目毕业，正式升级为顶级项目，也是第一个由中国团队完整贡献到 Apache 的顶级项目。kylin的诞生，为大数据高效的olap查询提供解决方案，主要由以下特点：

大数据真好玩

2020-02-19

1K0

对比MySQL，一文看透HBase的能力及使用场景

hbase TDSQL MySQL 版

MySQL + HBase 是我们日常应用中常用的两个数据库，分别解决应用的在线事务问题和大数据场景的海量存储问题。

大数据真好玩

2020-02-19

8080

实时数仓实践系列 | NO.1『宽表处理』

hbase TDSQL MySQL 版

由于离线数仓每天凌晨拉去线上生成数据库(凌晨请求较少，减少线上库压力)，导致数据是T+1，而对于一些时效性要求较强的场景。比如需要看现在的用户数、GMV等等，离线方案就很难解决了。

大数据真好玩

2020-02-11

2.6K0

基于HBase和Spark构建企业级数据处理平台

hbase TDSQL MySQL 版数据处理机器学习大数据

Micro-Batch Processing：100ms延迟，Continuous Processing：1ms延迟

大数据真好玩

2019-11-05

8940

Cassandra & Hbase争锋 | NoSQL数据库的另一个王者

分布式 hbase TDSQL MySQL 版开源数据库

谷歌在2006年的一份研究报告中首次对Bigtable进行了阐述，如果你熟悉Bigtable这个名词，那么：行先是以一种非常独特的方式被索引，随后Bigtable利用行键对数据进行分割，将它们分布到集群中。这句话你应该不陌生。

大数据真好玩

2019-09-10

2.3K0

科学使用HBase Connection

hbase TDSQL MySQL 版编程算法 rpc

这个问题的答案简单而不简单：HBase客户端是不需要维护连接池的，或者说，Connection对象已经帮我们做好了。但是，对Connection使用不当是HBase新手（包括很久很久之前的我自己）最容易犯的错误之一，常见错误用法有：

大数据真好玩

2019-09-02

3.9K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态