腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据学习与分享

专注于大数据领域常用技术的学习与分享

专栏作者

167

文章

193122

阅读量

42

订阅数

一文掌握HBase核心知识以及面试问题

hbase TDSQL MySQL 版数据迁移存储

HBase是一个高可靠、高性能、面向列的，主要用于海量结构化和半结构化数据存储的分布式key-value存储系统。

大数据学习与分享

2021-09-02

6780

高级大数据研发工程师面试题总结

hbase TDSQL MySQL 版 node.js yarn 编程算法

4.groupByKey、reduceByKey、aggregateByKey、combineByKey区别

大数据学习与分享

2021-06-10

1.2K0

从HBase底层原理解析HBASE列族不能设计太多的原因？

存储缓存 hbase TDSQL MySQL 版大数据

通过上述文章的介绍，我们了解到： HBase底层存储依赖于HDFS，HBase中table在行的方向上分割为多个region，它是HBase负载均衡的最小单元，可以分布在不同的RegionServer上，但是一个region不能拆分到多个RegionServer上。

大数据学习与分享

2020-09-23

1.8K0

Hive数据导入HBase引起数据膨胀引发的思考

hbase TDSQL MySQL 版 hive 存储

最近朋友公司在做一些数据的迁移，主要是将一些Hive处理之后的热数据导入到HBase中，但是遇到了一个很奇怪的问题：同样的数据到了HBase中，所占空间竟增长了好几倍！详谈中，笔者建议朋友至少从几点原因入手分析：

大数据学习与分享

2020-08-10

7590

通过Spark生成HFile，并以BulkLoad方式将数据导入到HBase

hbase TDSQL MySQL 版 spark hive api

在实际生产环境中，将计算和存储进行分离，是我们提高集群吞吐量、确保集群规模水平可扩展的主要方法之一，并且通过集群的扩容、性能的优化，确保在数据大幅增长时，存储不能称为系统的瓶颈。

大数据学习与分享

2020-08-10

2.3K0

Spark流式状态管理

云数据库 Redis 大数据 spark hbase TDSQL MySQL 版

通常使用Spark的流式框架如Spark Streaming，做无状态的流式计算是非常方便的，仅需处理每个批次时间间隔内的数据即可，不需要关注之前的数据，这是建立在业务需求对批次之间的数据没有联系的基础之上的。

大数据学习与分享

2020-08-10

8760

HBase中Memstore存在的意义以及多列族引起的问题和设计

hbase TDSQL MySQL 版缓存大数据 node.js

HBase在WAL机制开启的情况下，不考虑块缓存，数据日志会先写入HLog，然后进入Memstore，最后持久化到HFile中。HFile是存储在hdfs上的，WAL预写日志也是，但Memstore是在内存的，增加Memstore大小并不能有效提升写入速度，为什么还要将数据存入Memstore中呢？

大数据学习与分享

2020-08-10

1.4K0

HBase高级特性、rowkey设计以及热点问题处理

hbase TDSQL MySQL 版存储编程算法 javascript

在阐述HBase高级特性和热点问题处理前，首先回顾一下HBase的特点：分布式、列存储、支持实时读写、存储的数据类型都是字节数组byte[]，主要用来处理结构化和半结构化数据，底层数据存储基于hdfs。

大数据学习与分享

2020-08-10

6780

大数据常用技术栈

分布式 hbase TDSQL MySQL 版开源 spark

提起大数据，不得不提由IBM提出的关于大数据的5V特点：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性），而对于大数据领域的从业人员的日常工作也与这5V密切相关。大数据技术在过去的几十年中取得非常迅速的发展，尤以Hadoop和Spark最为突出，已构建起庞大的技术生态体系圈。首先通过一张图来了解一下目前大数据领域常用的一些技术，当然大数据发展至今所涉及技术远不止这些。

大数据学习与分享

2020-08-10

9010

大数据常用技术栈

大数据大数据处理套件 TBDS TDSQL MySQL 版数据分析数据挖掘

提起大数据，不得不提由IBM提出的关于大数据的5V特点：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性），而对于大数据领域的从业人员的日常工作也与这5V密切相关。大数据技术在过去的几十年中取得非常迅速的发展，尤以Hadoop和Spark最为突出，已构建起庞大的技术生态体系圈。首先通过一张图来了解一下目前大数据领域常用的一些技术，当然大数据发展至今所涉及技术远不止这些。

大数据学习与分享

2020-07-24

1K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态