腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
大数据成神之路
专注大数据领域的一切技术~
专栏成员
举报
638
文章
1402335
阅读量
321
订阅数
订阅专栏
申请加入专栏
全部文章(638)
大数据(273)
sql(163)
数据库(129)
kafka(105)
spark(100)
flink(91)
编程算法(83)
apache(72)
存储(60)
hive(59)
java(52)
node.js(52)
api(52)
数据(46)
hadoop(41)
文件存储(39)
缓存(39)
hbase(36)
云数据库 SQL Server(35)
TDSQL MySQL 版(33)
数据处理(31)
分布式(29)
数据结构(28)
scala(25)
云数据库 Redis(24)
mapreduce(24)
数据分析(21)
javascript(19)
linux(19)
yarn(18)
https(18)
python(17)
网络安全(17)
unix(16)
jvm(16)
windows(16)
zookeeper(14)
开发(14)
打包(13)
消息队列 CMQ 版(13)
批量计算(12)
http(12)
数据湖(12)
bash(11)
面试(11)
数据迁移(10)
云计算(10)
xml(9)
企业(9)
数据安全(9)
Elasticsearch Service(9)
框架(9)
bash 指令(8)
腾讯云测试服务(8)
面向对象编程(8)
架构(8)
优化(8)
jar(7)
运维(7)
processing(7)
机器学习(6)
json(6)
日志数据(6)
开源(6)
hashmap(6)
tcp/ip(6)
rabbitmq(6)
数据可视化(6)
微服务(6)
html(5)
神经网络(5)
深度学习(5)
压力测试(5)
jdbc(5)
rpc(5)
nosql(4)
spring(4)
网站(4)
express(4)
sql server(4)
nest(4)
任务调度(4)
es(4)
数据集成(4)
工具(4)
配置(4)
设计(4)
数据管理(4)
系统(4)
性能(4)
oracle(3)
github(3)
maven(3)
人工智能(3)
vr 视频解决方案(3)
electron(3)
容器(3)
shell(3)
socket编程(3)
kerberos(3)
性能测试(3)
实时数仓(3)
测试(3)
工作(3)
行业(3)
集群(3)
模型(3)
内存(3)
实践(3)
索引(3)
原理(3)
对象存储(2)
官方文档(2)
数据挖掘(2)
css(2)
ajax(2)
android(2)
ide(2)
lucene/solr(2)
nginx(2)
容器镜像服务(2)
海外加速(2)
mongodb(2)
rollup.js(2)
kubernetes(2)
uml(2)
架构设计(2)
5g(2)
迁移(2)
clickhouse(2)
报表(2)
产品(2)
磁盘(2)
函数(2)
后端(2)
基础(2)
监控(2)
解决方案(2)
排序(2)
事件(2)
异常(2)
最佳实践(2)
负载均衡(1)
自动驾驶(1)
ios(1)
iphone(1)
php(1)
go(1)
lua(1)
erlang(1)
regex(1)
react(1)
typescript(1)
postgresql(1)
flask(1)
sqlalchemy(1)
git(1)
搜索引擎(1)
负载均衡缓存(1)
专用宿主机(1)
云数据迁移(1)
日志服务(1)
腾讯云可观测平台(1)
命令行工具(1)
云数据库 MongoDB(1)
es 2(1)
图像处理(1)
数据备份(1)
电商(1)
出行(1)
serverless(1)
游戏(1)
无人驾驶(1)
jdk(1)
推荐系统(1)
markdown(1)
zabbix(1)
微信(1)
机器人(1)
物联网(1)
系统架构(1)
腾讯云开发者社区(1)
安全治理(1)
raft(1)
实时监控(1)
数据库管理(1)
流计算 Oceanus(1)
大数据存储(1)
汽车(1)
腾讯云(1)
bi(1)
bigdata(1)
block(1)
class(1)
code(1)
combine(1)
configuration(1)
csv(1)
data(1)
dp(1)
export(1)
fifo(1)
hash(1)
import(1)
ip(1)
key(1)
memory(1)
mysql(1)
netty(1)
populate(1)
properties(1)
pulsar(1)
queue(1)
rank(1)
root(1)
scheduler(1)
select(1)
state(1)
sum(1)
table(1)
task(1)
time(1)
vi(1)
window(1)
报表工具(1)
登录(1)
队列(1)
服务(1)
高性能(1)
管理(1)
规范化(1)
架构师(1)
接口(1)
连接(1)
日志(1)
入门(1)
实时计算(1)
数据采集(1)
数据同步(1)
算法(1)
微信公众号(1)
线程(1)
效率(1)
协议(1)
研发(1)
语法(1)
中间件(1)
字符串(1)
搜索文章
搜索
搜索
关闭
从B+树到LSM树,及LSM树在HBase中的应用
hbase
TDSQL MySQL 版
数据库
sql
在有代表性的关系型数据库如MySQL、SQL Server、Oracle中,数据存储与索引的基本结构就是我们耳熟能详的B树和B+树。而在一些主流的NoSQL数据库如HBase、Cassandra、LevelDB、RocksDB中,则是使用日志结构合并树(Log-structured Merge Tree,LSM Tree)来组织数据。本文先由B+树来引出对LSM树的介绍,然后说明HBase中是如何运用LSM树的。
王知无-import_bigdata
2022-06-05
1.1K
0
「Apache Hudi系列」核心概念与架构设计总结
文件存储
hbase
TDSQL MySQL 版
数据库
大数据
Apache Hudi依赖 HDFS 做底层的存储,所以可以支撑非常大规模的数据存储。同时基于下面两个原语,Hudi可以解决流批一体的存储问题。
王知无-import_bigdata
2022-03-11
1.1K
0
四万字硬刚Kudu | Kudu基础原理实践小总结
TDSQL MySQL 版
hbase
数据库
数据分析
数据结构
Hadoop生态系统发展到现在,存储层主要由HDFS和HBase两个系统把持着,一直没有太大突破。在追求高吞吐的批处理场景下,我们选用HDFS,在追求低延迟,有随机读写需求的场景下,我们选用HBase,那么是否存在一种系统,能结合两个系统优点,同时支持高吞吐率和低延迟呢?
王知无-import_bigdata
2021-09-22
2.9K
0
17道题你能秒我?我Hbase八股文反手就甩你一脸
hbase
TDSQL MySQL 版
数据库
sql
大数据
为了解决大数据环境中海量结构化数据的实时读写问题。为了弥补hadoop生态中没有实时存储的缺陷。
王知无-import_bigdata
2021-07-12
1K
0
【硬刚Kylin】Kylin入门/原理/调优/OLAP解决方案和行业典型应用
apache
hbase
TDSQL MySQL 版
hadoop
大数据
现今,大数据行业发展得如火如荼,新技术层出不穷,整个生态欣欣向荣。作为大数据领域最重要的技术的 Apache Hadoop 最初致力于简单的分布式存储,然后在此基础之上实现大规模并行计算,到如今在实时分析、多维分析、交互式分析、机器学习甚至人工智能等方面有了长足的发展。
王知无-import_bigdata
2021-07-12
1.2K
0
Klin、Druid、ClickHouse核心技术对比
hbase
TDSQL MySQL 版
http
node.js
数据结构
KYLIN、DRUID、CLICKHOUSE是目前主流的OLAP引擎,本文尝试从数据模型和索引结构两个角度,分析这几个引擎的核心技术,并做简单对比。在阅读本文之前希望能对KYLIN、DRUID、CLICKHOUSE有所理解。
王知无-import_bigdata
2021-01-06
1.4K
0
Hbase、Kudu和ClickHouse全视角对比
hbase
TDSQL MySQL 版
数据库
大数据
sql
Hadoop生态圈的技术繁多。HDFS一直用来保存底层数据,地位牢固。Hbase作为一款Nosql也是Hadoop生态圈的核心组件,它海量的存储能力,优秀的随机读写能力,能够处理一些HDFS不足的地方。Clickhouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。能够使用SQL查询实时生成分析数据报告。它同样拥有优秀的数据存储能力。
王知无-import_bigdata
2020-12-09
9.7K
0
面试必考点:HBase Compaction机制
hbase
TDSQL MySQL 版
Compaction是buffer->flush->merge的Log-Structured Merge-Tree模型的关键操作,主要起到如下几个作用:
王知无-import_bigdata
2020-06-15
1.3K
0
Kylin使用Spark构建Cube
spark
hbase
yarn
hadoop
TDSQL MySQL 版
Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 下面是单机安装采坑记,直接上配置和问题解决。 找一台干净的机器,把hadoop hive hbase从原有节点分别拷贝一份,主要目的是配置文件,可以不在kylin所在机器启动相关进程。 开源版本搭建,非整合HDP和CDH。 个别问题解决参考其他博客。 官网http://kylin.apache.org/cn/docs/ MapReduce构建Cube的问题也已解决,所以使用MapReduce构建Cube也是正常的。
王知无-import_bigdata
2020-05-20
1.9K
0
从NoSQL运动谈分布式系统的CAP、BASE理论
数据分析
nosql
hbase
TDSQL MySQL 版
分布式
自从上世纪80年代以降,关系型数据库(即传统的OLTP和OLAP数据库)一直都是后端业务系统的主导,能够满足很多需求。但是,随着数据量的激增、对查询响应要求提升、越来越多非结构化数据泛滥等原因,关系型数据库的领域面临挑战,因此催生了NoSQL(非关系型、not only SQL)运动——这个词在世纪之交才出现,但是NoSQL思想和数据库出现得要早得多。
王知无-import_bigdata
2020-05-20
1.3K
0
HBase生产环境优化不完全指南
hbase
TDSQL MySQL 版
缓存
大数据
云数据库 Redis
HBase集群一旦部署使用,再想对其作出调整需要付出惨痛代价,所以如何部署HBase集群是使用的第一个关键步骤。
王知无-import_bigdata
2020-04-02
1.6K
0
HBase优化笔记
hbase
TDSQL MySQL 版
缓存
jvm
编程算法
一般安装好的HBase集群,默认配置是给Master和RegionServer 1G的内存,而Memstore默认占0.4,也就是400MB。显然RegionServer给的1G真的太少了。
王知无-import_bigdata
2020-04-02
1.2K
0
设计HBase RowKey需要注意的二三事
hbase
TDSQL MySQL 版
缓存
存储
这对Scan操作非常友好,因为RowKey相近的行总是存储在相近的位置,顺序读的效率比随机读要高。
王知无-import_bigdata
2020-04-01
1.4K
0
Hbase FAQ热门问答小集合
hbase
TDSQL MySQL 版
jvm
zookeeper
问:Hbase大量写入很慢,一个列族,每个200多列,一秒写30000条数据,使用mutate添加数据,clientbuffer缓存大小为10M,四台测试机,128G内存,分配60G给Hbase,该怎么优化?
王知无-import_bigdata
2020-03-18
468
0
我们常说的海量小文件的根源是什么?
大数据
hbase
TDSQL MySQL 版
缓存
为了解决小文件问题,我们也是八仙过海各显神通,一般而言可能都是写个MR/Spark程序读取特定目录的数据,然后将数据重新生成N个文件。但是在以前,这种模式会有比较致命的问题,因为在生成的新文件要替换原来的文件,而替换的过程不是原子过程,所以这个时候如果正好发生读,是会影响的。其次,很多读的程序,都会缓存文件路径,因为我们重新生成了文件,文件名称也变化了,导致读的程序的缓存失效,会发生比如文件找不到等异常。对于在一个进程比较好说,做下刷新就行,但是读往往是在不同的进程实例里,这个时候通知他们也是很难的事情。再极端一点,读取这个表的程序可能是另外一个团队维护的。所以其实小文件并没有想象的那么好解决,或者说能够优雅的解决。
王知无-import_bigdata
2020-01-14
765
0
基于Flink SQL构建实时数据仓库
kafka
hive
大数据
hbase
TDSQL MySQL 版
根据目前大数据这一块的发展,已经不局限于离线的分析,挖掘数据潜在的价值,数据的时效性最近几年变得刚需,实时处理的框架有storm,spark-streaming,flink等。想要做到实时数据这个方案可行,需要考虑以下几点:1、状态机制 2、精确一次语义 3、高吞吐量 4、可弹性伸缩的应用 5、容错机制,刚好这几点,flink都完美的实现了,并且支持flink sql高级API,减少了开发成本,可用实现快速迭代,易维护等优点。
王知无-import_bigdata
2020-01-13
3.2K
0
Spark面对OOM问题的解决方法及优化总结
spark
linux
hbase
TDSQL MySQL 版
map执行中内存溢出代表了所有map类型的操作,包括:flatMap,filter,mapPatitions等。shuffle后内存溢出的shuffle操作包括join,reduceByKey,repartition等操作。后面先总结一下我对Spark内存模型的理解,再总结各种OOM的情况相对应的解决办法和性能优化方面的总结。如果理解有错,希望在评论中指出。
王知无-import_bigdata
2019-12-24
3K
0
Flink Source/Sink探究与实践:RocketMQ数据写入HBase
unix
大数据
hbase
TDSQL MySQL 版
apache
最近我们正在尝试把原有的一些Spark Streaming任务改造成Flink Streaming任务,自定义Source和Sink是遇到的第一个主要问题,稍微记录一下。
王知无-import_bigdata
2019-12-05
2.2K
0
基于HBase和Spark构建企业级数据处理平台
hbase
TDSQL MySQL 版
数据处理
大数据
机器学习
Micro-Batch Processing:100ms延迟 ,Continuous Processing:1ms延迟
王知无-import_bigdata
2019-10-31
1.1K
0
Phoenix全局索引设计实践
hbase
TDSQL MySQL 版
大数据
存储
全局索引是Phoenix的重要特性,合理的使用二级索引能降低查询延时,让集群资源得以充分利用。本文将讲述如何高效的设计和使用索引。
王知无-import_bigdata
2019-09-29
1K
0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档