腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
大数据成神之路
专注大数据领域的一切技术~
专栏作者
举报
635
文章
1271138
阅读量
315
订阅数
订阅专栏
申请加入专栏
全部文章
大数据
sql
数据库
kafka
spark
flink
编程算法
apache
存储
hive
java
node.js
api
数据
hadoop
文件存储
缓存
hbase
云数据库 SQL Server
TDSQL MySQL 版
数据处理
分布式
数据结构
scala
云数据库 Redis
mapreduce
数据分析
javascript
linux
yarn
https
python
网络安全
unix
jvm
windows
zookeeper
打包
消息队列 CMQ 版
开发
批量计算
http
bash
数据湖
数据迁移
云计算
面试
xml
企业
数据安全
Elasticsearch Service
bash 指令
腾讯云测试服务
面向对象编程
框架
优化
jar
运维
processing
机器学习
json
日志数据
开源
hashmap
tcp/ip
rabbitmq
数据可视化
微服务
架构
html
神经网络
深度学习
压力测试
jdbc
rpc
nosql
spring
网站
express
sql server
nest
任务调度
es
数据集成
工具
配置
数据管理
系统
性能
oracle
github
maven
人工智能
vr 视频解决方案
electron
容器
shell
socket编程
kerberos
性能测试
实时数仓
测试
工作
行业
集群
内存
设计
实践
索引
原理
对象存储
官方文档
数据挖掘
css
ajax
android
ide
lucene/solr
nginx
容器镜像服务
海外加速
mongodb
rollup.js
kubernetes
uml
架构设计
5g
迁移
clickhouse
报表
产品
磁盘
函数
后端
监控
解决方案
模型
排序
事件
异常
最佳实践
负载均衡
自动驾驶
ios
iphone
php
go
lua
erlang
regex
react
typescript
postgresql
flask
sqlalchemy
git
搜索引擎
负载均衡缓存
专用宿主机
云数据迁移
日志服务
腾讯云可观测平台
命令行工具
云数据库 MongoDB
es 2
图像处理
数据备份
电商
出行
serverless
游戏
无人驾驶
jdk
推荐系统
markdown
zabbix
微信
机器人
物联网
系统架构
腾讯云开发者社区
安全治理
raft
实时监控
数据库管理
流计算 Oceanus
大数据存储
汽车
腾讯云
bi
bigdata
block
class
code
combine
configuration
csv
data
dp
export
fifo
hash
import
ip
key
memory
mysql
netty
populate
properties
pulsar
queue
rank
root
scheduler
select
state
sum
table
task
time
vi
window
报表工具
登录
队列
服务
高性能
管理
规范化
基础
架构师
接口
连接
日志
入门
实时计算
数据采集
数据同步
算法
微信公众号
线程
效率
协议
研发
语法
中间件
字符串
搜索文章
搜索
搜索
关闭
从B+树到LSM树,及LSM树在HBase中的应用
hbase
TDSQL MySQL 版
数据库
sql
在有代表性的关系型数据库如MySQL、SQL Server、Oracle中,数据存储与索引的基本结构就是我们耳熟能详的B树和B+树。而在一些主流的NoSQL数据库如HBase、Cassandra、LevelDB、RocksDB中,则是使用日志结构合并树(Log-structured Merge Tree,LSM Tree)来组织数据。本文先由B+树来引出对LSM树的介绍,然后说明HBase中是如何运用LSM树的。
王知无-import_bigdata
2022-06-05
1K
0
「Apache Hudi系列」核心概念与架构设计总结
文件存储
hbase
TDSQL MySQL 版
数据库
大数据
Apache Hudi依赖 HDFS 做底层的存储,所以可以支撑非常大规模的数据存储。同时基于下面两个原语,Hudi可以解决流批一体的存储问题。
王知无-import_bigdata
2022-03-11
881
0
四万字硬刚Kudu | Kudu基础原理实践小总结
TDSQL MySQL 版
hbase
数据库
数据分析
数据结构
Hadoop生态系统发展到现在,存储层主要由HDFS和HBase两个系统把持着,一直没有太大突破。在追求高吞吐的批处理场景下,我们选用HDFS,在追求低延迟,有随机读写需求的场景下,我们选用HBase,那么是否存在一种系统,能结合两个系统优点,同时支持高吞吐率和低延迟呢?
王知无-import_bigdata
2021-09-22
2.1K
0
17道题你能秒我?我Hbase八股文反手就甩你一脸
hbase
TDSQL MySQL 版
数据库
sql
大数据
为了解决大数据环境中海量结构化数据的实时读写问题。为了弥补hadoop生态中没有实时存储的缺陷。
王知无-import_bigdata
2021-07-12
936
0
【硬刚Kylin】Kylin入门/原理/调优/OLAP解决方案和行业典型应用
apache
hbase
TDSQL MySQL 版
hadoop
大数据
现今,大数据行业发展得如火如荼,新技术层出不穷,整个生态欣欣向荣。作为大数据领域最重要的技术的 Apache Hadoop 最初致力于简单的分布式存储,然后在此基础之上实现大规模并行计算,到如今在实时分析、多维分析、交互式分析、机器学习甚至人工智能等方面有了长足的发展。
王知无-import_bigdata
2021-07-12
1K
0
实操 | Flink1.12.1通过Table API / Flink SQL读取HBase2.4.0
flink
大数据
hbase
maven
linux
昨天群里有人问 Flink 1.12 读取Hbase的问题,于是看到这篇文章分享给大家。本文作者Ashiamd。
王知无-import_bigdata
2021-05-07
2.5K
1
Klin、Druid、ClickHouse核心技术对比
hbase
TDSQL MySQL 版
http
node.js
数据结构
KYLIN、DRUID、CLICKHOUSE是目前主流的OLAP引擎,本文尝试从数据模型和索引结构两个角度,分析这几个引擎的核心技术,并做简单对比。在阅读本文之前希望能对KYLIN、DRUID、CLICKHOUSE有所理解。
王知无-import_bigdata
2021-01-06
1.3K
0
Hbase、Kudu和ClickHouse全视角对比
hbase
TDSQL MySQL 版
数据库
大数据
sql
Hadoop生态圈的技术繁多。HDFS一直用来保存底层数据,地位牢固。Hbase作为一款Nosql也是Hadoop生态圈的核心组件,它海量的存储能力,优秀的随机读写能力,能够处理一些HDFS不足的地方。Clickhouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。能够使用SQL查询实时生成分析数据报告。它同样拥有优秀的数据存储能力。
王知无-import_bigdata
2020-12-09
9.1K
0
【从0开始の全记录】Flume+Kafka+Spark+Spring Boot 统计网页访问量项目
scala
腾讯云测试服务
java
hbase
kafka
新建Scala文件——WebStatStreamingApp.scala,首先使用Direct模式连通Kafka:
王知无-import_bigdata
2020-08-20
1.7K
0
面试必考点:HBase Compaction机制
hbase
TDSQL MySQL 版
Compaction是buffer->flush->merge的Log-Structured Merge-Tree模型的关键操作,主要起到如下几个作用:
王知无-import_bigdata
2020-06-15
1.1K
0
Step by Step 实现基于 Cloudera 5.8.2 的企业级安全大数据平台 - Kerberos的整合
bash
bash 指令
kerberos
hbase
hive
之前非常担心的一件事就是如果有人拿到了hdfs超级管理员帐号,直接把数据rm -rf怎么办?有了Kerberos,就可以轻松防止这样的事情发生。Kerberos 协议实现了比“质询-响应”模式协议更高的安全性:第一,在身份验证过程中,所有的数据都使用不同的密码进行加密,避免了相关验证信息的泄漏;第二,客户端和服务器会相互验证对方的身份,避免了 中间人攻击 ;第三,客户端和服务器间的时间差被严格限制,避免了 回放攻击 。与 WINDOWS 系统中的 用户安全令牌 类似, Kerberos 服务通过“ 加密的票据(防止篡改) ”验证用户身份和提供用户访问权限;Kerberos 服务可以通过使用 会话密钥 确保在会话中数据的机密性和完整性。
王知无-import_bigdata
2020-05-29
769
0
Kylin使用Spark构建Cube
spark
hbase
yarn
hadoop
TDSQL MySQL 版
Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 下面是单机安装采坑记,直接上配置和问题解决。 找一台干净的机器,把hadoop hive hbase从原有节点分别拷贝一份,主要目的是配置文件,可以不在kylin所在机器启动相关进程。 开源版本搭建,非整合HDP和CDH。 个别问题解决参考其他博客。 官网http://kylin.apache.org/cn/docs/ MapReduce构建Cube的问题也已解决,所以使用MapReduce构建Cube也是正常的。
王知无-import_bigdata
2020-05-20
1.8K
0
从NoSQL运动谈分布式系统的CAP、BASE理论
数据分析
nosql
hbase
TDSQL MySQL 版
分布式
自从上世纪80年代以降,关系型数据库(即传统的OLTP和OLAP数据库)一直都是后端业务系统的主导,能够满足很多需求。但是,随着数据量的激增、对查询响应要求提升、越来越多非结构化数据泛滥等原因,关系型数据库的领域面临挑战,因此催生了NoSQL(非关系型、not only SQL)运动——这个词在世纪之交才出现,但是NoSQL思想和数据库出现得要早得多。
王知无-import_bigdata
2020-05-20
1.2K
0
HBase生产环境优化不完全指南
hbase
TDSQL MySQL 版
缓存
大数据
云数据库 Redis
HBase集群一旦部署使用,再想对其作出调整需要付出惨痛代价,所以如何部署HBase集群是使用的第一个关键步骤。
王知无-import_bigdata
2020-04-02
1.5K
0
HBase优化笔记
hbase
TDSQL MySQL 版
缓存
jvm
编程算法
一般安装好的HBase集群,默认配置是给Master和RegionServer 1G的内存,而Memstore默认占0.4,也就是400MB。显然RegionServer给的1G真的太少了。
王知无-import_bigdata
2020-04-02
1.1K
0
设计HBase RowKey需要注意的二三事
hbase
TDSQL MySQL 版
缓存
存储
这对Scan操作非常友好,因为RowKey相近的行总是存储在相近的位置,顺序读的效率比随机读要高。
王知无-import_bigdata
2020-04-01
1.3K
0
Hbase FAQ热门问答小集合
hbase
TDSQL MySQL 版
jvm
zookeeper
问:Hbase大量写入很慢,一个列族,每个200多列,一秒写30000条数据,使用mutate添加数据,clientbuffer缓存大小为10M,四台测试机,128G内存,分配60G给Hbase,该怎么优化?
王知无-import_bigdata
2020-03-18
439
0
我们常说的海量小文件的根源是什么?
大数据
hbase
TDSQL MySQL 版
缓存
为了解决小文件问题,我们也是八仙过海各显神通,一般而言可能都是写个MR/Spark程序读取特定目录的数据,然后将数据重新生成N个文件。但是在以前,这种模式会有比较致命的问题,因为在生成的新文件要替换原来的文件,而替换的过程不是原子过程,所以这个时候如果正好发生读,是会影响的。其次,很多读的程序,都会缓存文件路径,因为我们重新生成了文件,文件名称也变化了,导致读的程序的缓存失效,会发生比如文件找不到等异常。对于在一个进程比较好说,做下刷新就行,但是读往往是在不同的进程实例里,这个时候通知他们也是很难的事情。再极端一点,读取这个表的程序可能是另外一个团队维护的。所以其实小文件并没有想象的那么好解决,或者说能够优雅的解决。
王知无-import_bigdata
2020-01-14
747
0
基于Flink SQL构建实时数据仓库
kafka
hive
大数据
hbase
TDSQL MySQL 版
根据目前大数据这一块的发展,已经不局限于离线的分析,挖掘数据潜在的价值,数据的时效性最近几年变得刚需,实时处理的框架有storm,spark-streaming,flink等。想要做到实时数据这个方案可行,需要考虑以下几点:1、状态机制 2、精确一次语义 3、高吞吐量 4、可弹性伸缩的应用 5、容错机制,刚好这几点,flink都完美的实现了,并且支持flink sql高级API,减少了开发成本,可用实现快速迭代,易维护等优点。
王知无-import_bigdata
2020-01-13
3.1K
0
Spark面对OOM问题的解决方法及优化总结
spark
linux
hbase
TDSQL MySQL 版
map执行中内存溢出代表了所有map类型的操作,包括:flatMap,filter,mapPatitions等。shuffle后内存溢出的shuffle操作包括join,reduceByKey,repartition等操作。后面先总结一下我对Spark内存模型的理解,再总结各种OOM的情况相对应的解决办法和性能优化方面的总结。如果理解有错,希望在评论中指出。
王知无-import_bigdata
2019-12-24
2.9K
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档