大数据成神之路-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据成神之路

专注大数据领域的一切技术~

专栏成员

638

文章

1402335

阅读量

321

订阅数

从B+树到LSM树，及LSM树在HBase中的应用

hbase TDSQL MySQL 版数据库 sql

在有代表性的关系型数据库如MySQL、SQL Server、Oracle中，数据存储与索引的基本结构就是我们耳熟能详的B树和B+树。而在一些主流的NoSQL数据库如HBase、Cassandra、LevelDB、RocksDB中，则是使用日志结构合并树（Log-structured Merge Tree，LSM Tree）来组织数据。本文先由B+树来引出对LSM树的介绍，然后说明HBase中是如何运用LSM树的。

王知无-import_bigdata

2022-06-05

1.1K0

「Apache Hudi系列」核心概念与架构设计总结

文件存储 hbase TDSQL MySQL 版数据库大数据

Apache Hudi依赖 HDFS 做底层的存储，所以可以支撑非常大规模的数据存储。同时基于下面两个原语，Hudi可以解决流批一体的存储问题。

王知无-import_bigdata

2022-03-11

1.1K0

四万字硬刚Kudu | Kudu基础原理实践小总结

TDSQL MySQL 版 hbase 数据库数据分析数据结构

Hadoop生态系统发展到现在，存储层主要由HDFS和HBase两个系统把持着，一直没有太大突破。在追求高吞吐的批处理场景下，我们选用HDFS，在追求低延迟，有随机读写需求的场景下，我们选用HBase，那么是否存在一种系统，能结合两个系统优点，同时支持高吞吐率和低延迟呢？

王知无-import_bigdata

2021-09-22

2.9K0

17道题你能秒我？我Hbase八股文反手就甩你一脸

hbase TDSQL MySQL 版数据库 sql 大数据

为了解决大数据环境中海量结构化数据的实时读写问题。为了弥补hadoop生态中没有实时存储的缺陷。

王知无-import_bigdata

2021-07-12

1K0

【硬刚Kylin】Kylin入门/原理/调优/OLAP解决方案和行业典型应用

apache hbase TDSQL MySQL 版 hadoop 大数据

现今，大数据行业发展得如火如荼，新技术层出不穷，整个生态欣欣向荣。作为大数据领域最重要的技术的 Apache Hadoop 最初致力于简单的分布式存储，然后在此基础之上实现大规模并行计算，到如今在实时分析、多维分析、交互式分析、机器学习甚至人工智能等方面有了长足的发展。

王知无-import_bigdata

2021-07-12

1.2K0

Klin、Druid、ClickHouse核心技术对比

hbase TDSQL MySQL 版 http node.js 数据结构

KYLIN、DRUID、CLICKHOUSE是目前主流的OLAP引擎，本文尝试从数据模型和索引结构两个角度，分析这几个引擎的核心技术，并做简单对比。在阅读本文之前希望能对KYLIN、DRUID、CLICKHOUSE有所理解。

王知无-import_bigdata

2021-01-06

1.4K0

Hbase、Kudu和ClickHouse全视角对比

hbase TDSQL MySQL 版数据库大数据 sql

Hadoop生态圈的技术繁多。HDFS一直用来保存底层数据，地位牢固。Hbase作为一款Nosql也是Hadoop生态圈的核心组件，它海量的存储能力，优秀的随机读写能力，能够处理一些HDFS不足的地方。Clickhouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。能够使用SQL查询实时生成分析数据报告。它同样拥有优秀的数据存储能力。

王知无-import_bigdata

2020-12-09

9.7K0

面试必考点:HBase Compaction机制

hbase TDSQL MySQL 版

Compaction是buffer->flush->merge的Log-Structured Merge-Tree模型的关键操作，主要起到如下几个作用：

王知无-import_bigdata

2020-06-15

1.3K0

Kylin使用Spark构建Cube

spark hbase yarn hadoop TDSQL MySQL 版

Apache Kylin™是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。下面是单机安装采坑记，直接上配置和问题解决。找一台干净的机器，把hadoop hive hbase从原有节点分别拷贝一份，主要目的是配置文件，可以不在kylin所在机器启动相关进程。开源版本搭建，非整合HDP和CDH。个别问题解决参考其他博客。官网http://kylin.apache.org/cn/docs/ MapReduce构建Cube的问题也已解决，所以使用MapReduce构建Cube也是正常的。

王知无-import_bigdata

2020-05-20

1.9K0

从NoSQL运动谈分布式系统的CAP、BASE理论

数据分析 nosql hbase TDSQL MySQL 版分布式

自从上世纪80年代以降，关系型数据库（即传统的OLTP和OLAP数据库）一直都是后端业务系统的主导，能够满足很多需求。但是，随着数据量的激增、对查询响应要求提升、越来越多非结构化数据泛滥等原因，关系型数据库的领域面临挑战，因此催生了NoSQL（非关系型、not only SQL）运动——这个词在世纪之交才出现，但是NoSQL思想和数据库出现得要早得多。

王知无-import_bigdata

2020-05-20

1.3K0

HBase生产环境优化不完全指南

hbase TDSQL MySQL 版缓存大数据云数据库 Redis

HBase集群一旦部署使用，再想对其作出调整需要付出惨痛代价，所以如何部署HBase集群是使用的第一个关键步骤。

王知无-import_bigdata

2020-04-02

1.6K0

HBase优化笔记

hbase TDSQL MySQL 版缓存 jvm 编程算法

一般安装好的HBase集群，默认配置是给Master和RegionServer 1G的内存，而Memstore默认占0.4，也就是400MB。显然RegionServer给的1G真的太少了。

王知无-import_bigdata

2020-04-02

1.2K0

设计HBase RowKey需要注意的二三事

hbase TDSQL MySQL 版缓存存储

这对Scan操作非常友好，因为RowKey相近的行总是存储在相近的位置，顺序读的效率比随机读要高。

王知无-import_bigdata

2020-04-01

1.4K0

Hbase FAQ热门问答小集合

hbase TDSQL MySQL 版 jvm zookeeper

问：Hbase大量写入很慢，一个列族，每个200多列，一秒写30000条数据，使用mutate添加数据，clientbuffer缓存大小为10M，四台测试机，128G内存，分配60G给Hbase，该怎么优化？

王知无-import_bigdata

2020-03-18

4680

我们常说的海量小文件的根源是什么？

大数据 hbase TDSQL MySQL 版缓存

为了解决小文件问题，我们也是八仙过海各显神通，一般而言可能都是写个MR/Spark程序读取特定目录的数据，然后将数据重新生成N个文件。但是在以前，这种模式会有比较致命的问题，因为在生成的新文件要替换原来的文件，而替换的过程不是原子过程，所以这个时候如果正好发生读，是会影响的。其次，很多读的程序，都会缓存文件路径，因为我们重新生成了文件，文件名称也变化了，导致读的程序的缓存失效，会发生比如文件找不到等异常。对于在一个进程比较好说，做下刷新就行，但是读往往是在不同的进程实例里，这个时候通知他们也是很难的事情。再极端一点，读取这个表的程序可能是另外一个团队维护的。所以其实小文件并没有想象的那么好解决，或者说能够优雅的解决。

王知无-import_bigdata

2020-01-14

7650

基于Flink SQL构建实时数据仓库

kafka hive 大数据 hbase TDSQL MySQL 版

根据目前大数据这一块的发展，已经不局限于离线的分析，挖掘数据潜在的价值，数据的时效性最近几年变得刚需，实时处理的框架有storm，spark-streaming，flink等。想要做到实时数据这个方案可行，需要考虑以下几点：1、状态机制 2、精确一次语义 3、高吞吐量 4、可弹性伸缩的应用 5、容错机制，刚好这几点，flink都完美的实现了，并且支持flink sql高级API，减少了开发成本，可用实现快速迭代，易维护等优点。

王知无-import_bigdata

2020-01-13

3.2K0

Spark面对OOM问题的解决方法及优化总结

spark linux hbase TDSQL MySQL 版

map执行中内存溢出代表了所有map类型的操作，包括：flatMap，filter，mapPatitions等。shuffle后内存溢出的shuffle操作包括join，reduceByKey，repartition等操作。后面先总结一下我对Spark内存模型的理解，再总结各种OOM的情况相对应的解决办法和性能优化方面的总结。如果理解有错，希望在评论中指出。

王知无-import_bigdata

2019-12-24

3K0

Flink Source/Sink探究与实践：RocketMQ数据写入HBase

unix 大数据 hbase TDSQL MySQL 版 apache

最近我们正在尝试把原有的一些Spark Streaming任务改造成Flink Streaming任务，自定义Source和Sink是遇到的第一个主要问题，稍微记录一下。

王知无-import_bigdata

2019-12-05

2.2K0

基于HBase和Spark构建企业级数据处理平台

hbase TDSQL MySQL 版数据处理大数据机器学习

Micro-Batch Processing：100ms延迟，Continuous Processing：1ms延迟

王知无-import_bigdata

2019-10-31

1.1K0

Phoenix全局索引设计实践

hbase TDSQL MySQL 版大数据存储

全局索引是Phoenix的重要特性，合理的使用二级索引能降低查询延时，让集群资源得以充分利用。本文将讲述如何高效的设计和使用索引。

王知无-import_bigdata

2019-09-29

1K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态