腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
暴走大数据
专栏作者
举报
298
文章
535101
阅读量
99
订阅数
订阅专栏
申请加入专栏
全部文章(298)
大数据(118)
sql(66)
spark(66)
数据库(47)
编程算法(45)
存储(39)
kafka(39)
flink(39)
java(30)
node.js(29)
文件存储(24)
hive(23)
缓存(22)
hadoop(21)
api(16)
hbase(16)
mapreduce(15)
TDSQL MySQL 版(15)
数据处理(15)
linux(14)
apache(14)
数据结构(14)
云数据库 Redis(13)
分布式(13)
rpc(13)
javascript(12)
云数据库 SQL Server(12)
网络安全(12)
https(12)
数据分析(11)
unix(10)
zookeeper(10)
http(9)
jvm(9)
bash(8)
yarn(8)
html(7)
bash 指令(7)
消息队列 CMQ 版(7)
vr 视频解决方案(6)
Elasticsearch Service(6)
搜索引擎(5)
开源(5)
面向对象编程(5)
es(5)
python(4)
scala(4)
打包(4)
lucene/solr(4)
批量计算(4)
网站(4)
数据安全(4)
hashmap(4)
tcp/ip(4)
数据湖(4)
负载均衡(3)
xml(3)
jquery(3)
电商(3)
企业(3)
kubernetes(3)
运维(3)
rabbitmq(3)
uml(3)
云计算(3)
任务调度(3)
raft(3)
php(2)
ide(2)
github(2)
负载均衡缓存(2)
nginx(2)
腾讯云测试服务(2)
日志数据(2)
数据迁移(2)
socket编程(2)
windows(2)
架构设计(2)
微服务(2)
processing(2)
费用中心(1)
其他(1)
官方文档(1)
机器学习(1)
ios(1)
iphone(1)
c 语言(1)
c++(1)
servlet(1)
bootstrap(1)
json(1)
ajax(1)
android(1)
oracle(1)
jar(1)
全文检索(1)
analyzer(1)
容器镜像服务(1)
云数据迁移(1)
短视频(1)
命令行工具(1)
腾讯计费(1)
数据备份(1)
express(1)
容器(1)
parcel(1)
压力测试(1)
shell(1)
jdk(1)
sql server(1)
jdbc(1)
grep(1)
markdown(1)
kerberos(1)
微信(1)
数据可视化(1)
mqtt(1)
ipv6(1)
数据湖分析(1)
clickhouse(1)
count(1)
flush(1)
init(1)
invoke(1)
io(1)
ip(1)
map(1)
merge(1)
olap(1)
parquet(1)
partition(1)
queue(1)
record(1)
session(1)
sign(1)
state(1)
task(1)
tdd(1)
view(1)
zk(1)
实践(1)
数据(1)
统计(1)
异步(1)
搜索文章
搜索
搜索
关闭
大数据之Hadoop企业级生产调优手册(上)
hadoop
node.js
腾讯云测试服务
xml
大数据
每个文件块大概占用 150byte,一台服务器 128G内存为例,能存储多少文件块呢?128 * 128 * 1024 * 1024 / 150Byte ≈ 9.1亿
大数据真好玩
2021-10-12
1.3K
0
Hadoop重点难点:Hadoop IO/压缩/序列化
node.js
hadoop
文件存储
存储
数据处理
序列化是指将结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。反序列化是指将字节流转回结构化对象的逆过程。
大数据真好玩
2021-10-12
919
0
Hadoop重点难点:HDFS读写/NN/2NN/DN
编程算法
大数据
node.js
NameNode在内存中保存着整个文件系统的名字空间和文件数据块的地址映射(Blockmap)。如果NameNode宕机,那么整个集群就瘫痪了。
大数据真好玩
2021-10-12
962
0
我们在学习Kafka的时候,到底在学习什么?
kafka
node.js
分布式
大数据
面向对象编程
我在之前《Kafka源码阅读的一些小提示》写了一些关于Kafka源码阅读的注意事项。
大数据真好玩
2021-09-18
256
0
Kafka Connect | 无缝结合Kafka构建高效ETL方案
kafka
编程算法
api
分布式
node.js
Kafka connect是Confluent公司(当时开发出Apache Kafka的核心团队成员出来创立的新公司)开发的confluent platform的核心功能。可以很简单的快速定义 connectors 将大量数据从 Kafka 移入和移出. Kafka Connect 可以摄取数据库数据或者收集应用程序的 metrics 存储到 Kafka topics,使得数据可以用于低延迟的流处理。一个导出的 job 可以将来自 Kafka topic 的数据传输到二级存储,用于系统查询或者批量进行离线分析。
大数据真好玩
2021-09-18
451
0
【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇
大数据
hadoop
node.js
vr 视频解决方案
mapreduce
2021年初的时候,关于Hadoop要退休淘汰的PR文章甚嚣尘上。其中MapReduce思想最为人所诟病,因为其并不友好的写代码方式,高昂的维护成本以及较差的运行效率。
大数据真好玩
2021-09-18
549
0
从面试角度详解Kafka
kafka
编程算法
bash
bash 指令
node.js
Kafka 是一个优秀的分布式消息中间件,许多系统中都会使用到 Kafka 来做消息通信。对分布式消息系统的了解和使用几乎成为一个开发人员必备的技能。
大数据真好玩
2021-07-12
639
0
HDFS 底层交互原理解析
node.js
大数据
编程算法
zookeeper
大约在 15 年前,我们大数据开发的“祖师爷”(Doug Cutting)基于 Google 经典论文“三驾马车”,陆续实现了 HDFS、MapReduce、HBase 三个经典大数据组件并做了开源,这才有了这些年来大数据生态圈的红红火火。
大数据真好玩
2021-07-07
694
0
Kafka学习笔记之概述、入门、架构深入
node.js
kafka
消息队列 CMQ 版
bash
bash 指令
Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。
大数据真好玩
2021-03-15
485
0
【大数据哔哔集20210122】面试官问我HDFS丢不丢数据?我啪就把这个文章甩到他脸上
大数据
node.js
vr 视频解决方案
存储
HDFS作为分布式文件系统在分布式环境下如何保证数据一致性。HDFS中,存储的文件将会被分成若干的大小一致的block分布式地存储在不同的机器上,需要NameNode节点来对这些数据进行管理,存储这些block的结点称为DataNode,NameNode是用来管理这些元数据的。
大数据真好玩
2021-01-27
858
0
大数据哔哔集20210106 - Hadoop3.0有哪些新特性
yarn
jdk
node.js
https
大数据
【大数据哔哔集】是小编发起的每日大数据圈子最前沿、高频、有难度的面试题目以及资讯等。
大数据真好玩
2021-01-26
491
0
多套Kylin集群共享Hbase和Hadoop计算集群关键配置最佳实践
node.js
hadoop
html
hbase
大数据
由于Kylin的本身架构(广播特性)和业务特点通常不适用于单套Kylin集群的节点过多,通常大家采用拆分Kylin集群但是共用底层的Hbase集群和计算集群的方式进行部署。本文主要根据目前咱们的实践经验对于此种场景集群配置进行分享,希望对大家有所帮助。
大数据真好玩
2021-01-26
900
0
【大数据哔哔集20210113】Hive的动态分区和静态分区
linux
hive
sql
node.js
xml
静态分区与动态分区的主要区别在于静态分区是手动指定,而动态分区是通过数据来进行判断。详细来说,静态分区的列实在编译时期,通过用户传递来决定的;动态分区只有在SQL执行时才能决定。不难看出,Hive分区主要是以缩小数据查询范围,提高查询速度和性能的。
大数据真好玩
2021-01-21
1.2K
0
ES运维实战之系统性能调优
缓存
Elasticsearch Service
node.js
文件句柄 Linux中,每个进程默认打开的最大文件句柄数是1000,对于服务器进程来说,显然太小,通过修改/etc/security/limits.conf来增大打开最大句柄数
大数据真好玩
2020-11-03
844
0
Flink源码阅读之Checkpoint执行过程
flink
大数据
javascript
node.js
对应Flink来说checkpoint的作用及重要性就不细说了,前面文章写过checkpoint的详细过程和checkpoint周期性触发过程。本篇我们在一起根据源码看下checkpoint的详细执行过程。
大数据真好玩
2020-10-23
986
0
Flink 源码解读系列 | Flink的Job启动Driver端
数据结构
linux
编程算法
node.js
rpc
整个Flink的Job启动是通过在Driver端通过用户的Envirement的execute()方法将用户的算子转化成StreamGraph
大数据真好玩
2020-09-07
607
0
CDH5.11 离线安装或者升级spark2.x详细步骤
spark
parcel
yarn
node.js
java
在我CDH5.11集群中,默认安装的spark是1.6版本,这里需要将其升级为spark2.x版本。经查阅官方文档,发现spark1.6和2.x是可以并行安装的,也就是说可以不用删除默认的1.6版本,可以直接安装2.x版本,它们各自用的端口也是不一样的。我尝试了安装spark2.0版本和spark2.1版本,均告成功。这里做一下安装spark2.1版本的步骤记录。
大数据真好玩
2020-08-28
453
0
简析Spark Streaming/Flink的Kafka动态感知
flink
node.js
大数据
kafka
spark
Kafka是我们日常的流处理任务中最为常用的数据源之一。随着数据类型和数据量的增大,难免要增加新的Kafka topic,或者为已有的topic增加更多partition。那么,Kafka后面作为消费者的实时处理引擎是如何感知到topic和partition变化的呢?本文以Spark Streaming和Flink为例来简单探究一下。
大数据真好玩
2020-08-11
1.7K
0
HDFS异构存储简介
大数据
存储
vr 视频解决方案
node.js
unix
Hadoop在2.6.0版本中引入了一个新特性异构存储.异构存储关键在于异构2个字.异构存储可以根据各个存储介质读写特性的不同发挥各自的优势.一个很适用的场景就是上篇文章提到的冷热数据的存储.针对冷数据,采用容量大的,读写性能不高的存储介质存储,比如最普通的Disk磁盘.而对于热数据而言,可以采用SSD的方式进行存储,这样就能保证高效的读性能,在速率上甚至能做到十倍于或百倍于普通磁盘读写的速度.换句话说,HDFS的异构存储特性的出现使得我们不需要搭建2套独立的集群来存放冷热2类数据,在一套集群内就能完成.所以这个功能特性还是有非常大的实用意义的.本文就带大家了解HDFS的异构存储分为哪几种类型,存储策略如何,HDFS如何做到智能化的异构存储.
大数据真好玩
2020-08-04
2.2K
0
Redis6之pub/sub发布与订阅(对比List和Kafka)
云数据库 Redis
消息队列 CMQ 版
node.js
kafka
Redis中的订阅、发布实现了发布/订阅消息范式,发布者不是计划发送消息给特定的订阅者,而是发布消息到不同的频道,发布者不需要知道是哪些订阅者订阅了消息。订阅者对一个或多个频道感兴趣,只需接收感兴趣的消息,不需要知道是什么样的发布者发布的消息。这种发布者和订阅者的解耦合可以带来更大的扩展性和更加动态的网络拓扑。
大数据真好玩
2020-07-30
2.2K
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档