腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据成神之路

专注大数据领域的一切技术~

专栏作者

635

文章

1271138

阅读量

315

订阅数

从B+树到LSM树，及LSM树在HBase中的应用

hbase TDSQL MySQL 版数据库 sql

在有代表性的关系型数据库如MySQL、SQL Server、Oracle中，数据存储与索引的基本结构就是我们耳熟能详的B树和B+树。而在一些主流的NoSQL数据库如HBase、Cassandra、LevelDB、RocksDB中，则是使用日志结构合并树（Log-structured Merge Tree，LSM Tree）来组织数据。本文先由B+树来引出对LSM树的介绍，然后说明HBase中是如何运用LSM树的。

王知无-import_bigdata

2022-06-05

1K0

「Apache Hudi系列」核心概念与架构设计总结

文件存储 hbase TDSQL MySQL 版数据库大数据

Apache Hudi依赖 HDFS 做底层的存储，所以可以支撑非常大规模的数据存储。同时基于下面两个原语，Hudi可以解决流批一体的存储问题。

王知无-import_bigdata

2022-03-11

8810

四万字硬刚Kudu | Kudu基础原理实践小总结

TDSQL MySQL 版 hbase 数据库数据分析数据结构

Hadoop生态系统发展到现在，存储层主要由HDFS和HBase两个系统把持着，一直没有太大突破。在追求高吞吐的批处理场景下，我们选用HDFS，在追求低延迟，有随机读写需求的场景下，我们选用HBase，那么是否存在一种系统，能结合两个系统优点，同时支持高吞吐率和低延迟呢？

王知无-import_bigdata

2021-09-22

2.1K0

17道题你能秒我？我Hbase八股文反手就甩你一脸

hbase TDSQL MySQL 版数据库 sql 大数据

为了解决大数据环境中海量结构化数据的实时读写问题。为了弥补hadoop生态中没有实时存储的缺陷。

王知无-import_bigdata

2021-07-12

9360

【硬刚Kylin】Kylin入门/原理/调优/OLAP解决方案和行业典型应用

apache hbase TDSQL MySQL 版 hadoop 大数据

现今，大数据行业发展得如火如荼，新技术层出不穷，整个生态欣欣向荣。作为大数据领域最重要的技术的 Apache Hadoop 最初致力于简单的分布式存储，然后在此基础之上实现大规模并行计算，到如今在实时分析、多维分析、交互式分析、机器学习甚至人工智能等方面有了长足的发展。

王知无-import_bigdata

2021-07-12

1K0

实操 | Flink1.12.1通过Table API / Flink SQL读取HBase2.4.0

flink 大数据 hbase maven linux

昨天群里有人问 Flink 1.12 读取Hbase的问题，于是看到这篇文章分享给大家。本文作者Ashiamd。

王知无-import_bigdata

2021-05-07

2.5K1

Klin、Druid、ClickHouse核心技术对比

hbase TDSQL MySQL 版 http node.js 数据结构

KYLIN、DRUID、CLICKHOUSE是目前主流的OLAP引擎，本文尝试从数据模型和索引结构两个角度，分析这几个引擎的核心技术，并做简单对比。在阅读本文之前希望能对KYLIN、DRUID、CLICKHOUSE有所理解。

王知无-import_bigdata

2021-01-06

1.3K0

Hbase、Kudu和ClickHouse全视角对比

hbase TDSQL MySQL 版数据库大数据 sql

Hadoop生态圈的技术繁多。HDFS一直用来保存底层数据，地位牢固。Hbase作为一款Nosql也是Hadoop生态圈的核心组件，它海量的存储能力，优秀的随机读写能力，能够处理一些HDFS不足的地方。Clickhouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。能够使用SQL查询实时生成分析数据报告。它同样拥有优秀的数据存储能力。

王知无-import_bigdata

2020-12-09

9.1K0

【从0开始の全记录】Flume+Kafka+Spark+Spring Boot 统计网页访问量项目

scala 腾讯云测试服务 java hbase kafka

新建Scala文件——WebStatStreamingApp.scala，首先使用Direct模式连通Kafka：

王知无-import_bigdata

2020-08-20

1.7K0

面试必考点:HBase Compaction机制

hbase TDSQL MySQL 版

Compaction是buffer->flush->merge的Log-Structured Merge-Tree模型的关键操作，主要起到如下几个作用：

王知无-import_bigdata

2020-06-15

1.1K0

Step by Step 实现基于 Cloudera 5.8.2 的企业级安全大数据平台 - Kerberos的整合

bash bash 指令 kerberos hbase hive

之前非常担心的一件事就是如果有人拿到了hdfs超级管理员帐号，直接把数据rm -rf怎么办？有了Kerberos，就可以轻松防止这样的事情发生。Kerberos 协议实现了比“质询－响应”模式协议更高的安全性：第一，在身份验证过程中，所有的数据都使用不同的密码进行加密，避免了相关验证信息的泄漏；第二，客户端和服务器会相互验证对方的身份，避免了中间人攻击；第三，客户端和服务器间的时间差被严格限制，避免了回放攻击。与 WINDOWS 系统中的用户安全令牌类似， Kerberos 服务通过“ 加密的票据（防止篡改） ”验证用户身份和提供用户访问权限；Kerberos 服务可以通过使用会话密钥确保在会话中数据的机密性和完整性。

王知无-import_bigdata

2020-05-29

7690

Kylin使用Spark构建Cube

spark hbase yarn hadoop TDSQL MySQL 版

Apache Kylin™是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。下面是单机安装采坑记，直接上配置和问题解决。找一台干净的机器，把hadoop hive hbase从原有节点分别拷贝一份，主要目的是配置文件，可以不在kylin所在机器启动相关进程。开源版本搭建，非整合HDP和CDH。个别问题解决参考其他博客。官网http://kylin.apache.org/cn/docs/ MapReduce构建Cube的问题也已解决，所以使用MapReduce构建Cube也是正常的。

王知无-import_bigdata

2020-05-20

1.8K0

从NoSQL运动谈分布式系统的CAP、BASE理论

数据分析 nosql hbase TDSQL MySQL 版分布式

自从上世纪80年代以降，关系型数据库（即传统的OLTP和OLAP数据库）一直都是后端业务系统的主导，能够满足很多需求。但是，随着数据量的激增、对查询响应要求提升、越来越多非结构化数据泛滥等原因，关系型数据库的领域面临挑战，因此催生了NoSQL（非关系型、not only SQL）运动——这个词在世纪之交才出现，但是NoSQL思想和数据库出现得要早得多。

王知无-import_bigdata

2020-05-20

1.2K0

HBase生产环境优化不完全指南

hbase TDSQL MySQL 版缓存大数据云数据库 Redis

HBase集群一旦部署使用，再想对其作出调整需要付出惨痛代价，所以如何部署HBase集群是使用的第一个关键步骤。

王知无-import_bigdata

2020-04-02

1.5K0

HBase优化笔记

hbase TDSQL MySQL 版缓存 jvm 编程算法

一般安装好的HBase集群，默认配置是给Master和RegionServer 1G的内存，而Memstore默认占0.4，也就是400MB。显然RegionServer给的1G真的太少了。

王知无-import_bigdata

2020-04-02

1.1K0

设计HBase RowKey需要注意的二三事

hbase TDSQL MySQL 版缓存存储

这对Scan操作非常友好，因为RowKey相近的行总是存储在相近的位置，顺序读的效率比随机读要高。

王知无-import_bigdata

2020-04-01

1.3K0

Hbase FAQ热门问答小集合

hbase TDSQL MySQL 版 jvm zookeeper

问：Hbase大量写入很慢，一个列族，每个200多列，一秒写30000条数据，使用mutate添加数据，clientbuffer缓存大小为10M，四台测试机，128G内存，分配60G给Hbase，该怎么优化？

王知无-import_bigdata

2020-03-18

4390

我们常说的海量小文件的根源是什么？

大数据 hbase TDSQL MySQL 版缓存

为了解决小文件问题，我们也是八仙过海各显神通，一般而言可能都是写个MR/Spark程序读取特定目录的数据，然后将数据重新生成N个文件。但是在以前，这种模式会有比较致命的问题，因为在生成的新文件要替换原来的文件，而替换的过程不是原子过程，所以这个时候如果正好发生读，是会影响的。其次，很多读的程序，都会缓存文件路径，因为我们重新生成了文件，文件名称也变化了，导致读的程序的缓存失效，会发生比如文件找不到等异常。对于在一个进程比较好说，做下刷新就行，但是读往往是在不同的进程实例里，这个时候通知他们也是很难的事情。再极端一点，读取这个表的程序可能是另外一个团队维护的。所以其实小文件并没有想象的那么好解决，或者说能够优雅的解决。

王知无-import_bigdata

2020-01-14

7470

基于Flink SQL构建实时数据仓库

kafka hive 大数据 hbase TDSQL MySQL 版

根据目前大数据这一块的发展，已经不局限于离线的分析，挖掘数据潜在的价值，数据的时效性最近几年变得刚需，实时处理的框架有storm，spark-streaming，flink等。想要做到实时数据这个方案可行，需要考虑以下几点：1、状态机制 2、精确一次语义 3、高吞吐量 4、可弹性伸缩的应用 5、容错机制，刚好这几点，flink都完美的实现了，并且支持flink sql高级API，减少了开发成本，可用实现快速迭代，易维护等优点。

王知无-import_bigdata

2020-01-13

3.1K0

Spark面对OOM问题的解决方法及优化总结

spark linux hbase TDSQL MySQL 版

map执行中内存溢出代表了所有map类型的操作，包括：flatMap，filter，mapPatitions等。shuffle后内存溢出的shuffle操作包括join，reduceByKey，repartition等操作。后面先总结一下我对Spark内存模型的理解，再总结各种OOM的情况相对应的解决办法和性能优化方面的总结。如果理解有错，希望在评论中指出。

王知无-import_bigdata

2019-12-24

2.9K0

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态