腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
暴走大数据
专栏作者
举报
298
文章
535509
阅读量
99
订阅数
订阅专栏
申请加入专栏
全部文章(298)
大数据(118)
sql(66)
spark(66)
数据库(47)
编程算法(45)
存储(39)
kafka(39)
flink(39)
java(30)
node.js(29)
文件存储(24)
hive(23)
缓存(22)
hadoop(21)
api(16)
hbase(16)
mapreduce(15)
TDSQL MySQL 版(15)
数据处理(15)
linux(14)
apache(14)
数据结构(14)
云数据库 Redis(13)
分布式(13)
rpc(13)
javascript(12)
云数据库 SQL Server(12)
网络安全(12)
https(12)
数据分析(11)
unix(10)
zookeeper(10)
http(9)
jvm(9)
bash(8)
yarn(8)
html(7)
bash 指令(7)
消息队列 CMQ 版(7)
vr 视频解决方案(6)
Elasticsearch Service(6)
搜索引擎(5)
开源(5)
面向对象编程(5)
es(5)
python(4)
scala(4)
打包(4)
lucene/solr(4)
批量计算(4)
网站(4)
数据安全(4)
hashmap(4)
tcp/ip(4)
数据湖(4)
负载均衡(3)
xml(3)
jquery(3)
电商(3)
企业(3)
kubernetes(3)
运维(3)
rabbitmq(3)
uml(3)
云计算(3)
任务调度(3)
raft(3)
php(2)
ide(2)
github(2)
负载均衡缓存(2)
nginx(2)
腾讯云测试服务(2)
日志数据(2)
数据迁移(2)
socket编程(2)
windows(2)
架构设计(2)
微服务(2)
processing(2)
费用中心(1)
其他(1)
官方文档(1)
机器学习(1)
ios(1)
iphone(1)
c 语言(1)
c++(1)
servlet(1)
bootstrap(1)
json(1)
ajax(1)
android(1)
oracle(1)
jar(1)
全文检索(1)
analyzer(1)
容器镜像服务(1)
云数据迁移(1)
短视频(1)
命令行工具(1)
腾讯计费(1)
数据备份(1)
express(1)
容器(1)
parcel(1)
压力测试(1)
shell(1)
jdk(1)
sql server(1)
jdbc(1)
grep(1)
markdown(1)
kerberos(1)
微信(1)
数据可视化(1)
mqtt(1)
ipv6(1)
数据湖分析(1)
clickhouse(1)
count(1)
flush(1)
init(1)
invoke(1)
io(1)
ip(1)
map(1)
merge(1)
olap(1)
parquet(1)
partition(1)
queue(1)
record(1)
session(1)
sign(1)
state(1)
task(1)
tdd(1)
view(1)
zk(1)
实践(1)
数据(1)
统计(1)
异步(1)
搜索文章
搜索
搜索
关闭
Hudi与Spark和HDFS的集成安装使用
大数据
shell
hadoop
面向对象编程
打包
将maven的安装包上传到centos7服务器上,并解压,然后配置系统环境变量即可
大数据真好玩
2022-06-17
1.2K
0
基于Seatunnel连通Hive和ClickHouse实战
编程算法
spark
hive
jquery
hadoop
官方推荐的 seatunnel1.5.7+spark2.4.8+scala2.11
大数据真好玩
2022-06-17
2K
0
大数据之Hadoop企业级生产调优手册(上)
hadoop
node.js
腾讯云测试服务
xml
大数据
每个文件块大概占用 150byte,一台服务器 128G内存为例,能存储多少文件块呢?128 * 128 * 1024 * 1024 / 150Byte ≈ 9.1亿
大数据真好玩
2021-10-12
1.3K
0
Hadoop重点难点:Hadoop IO/压缩/序列化
node.js
hadoop
文件存储
存储
数据处理
序列化是指将结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。反序列化是指将字节流转回结构化对象的逆过程。
大数据真好玩
2021-10-12
920
0
【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇
大数据
hadoop
node.js
vr 视频解决方案
mapreduce
2021年初的时候,关于Hadoop要退休淘汰的PR文章甚嚣尘上。其中MapReduce思想最为人所诟病,因为其并不友好的写代码方式,高昂的维护成本以及较差的运行效率。
大数据真好玩
2021-09-18
550
0
Hive文件存储格式和Hive数据压缩小总结
存储
hadoop
文件存储
hive
mapreduce
HiveQL语句最终都将转换成为hadoop中的MapReduce job,而MapReduce job可以有对处理的数据进行压缩。
大数据真好玩
2021-09-18
1K
0
新手友好 | Hadoop-架构、原理、实时计算和离线计算
hadoop
分布式
hive
大数据
数据分析
一、什么是Hadoop 二、Hadoop各个组件的作用 三、Hadoop核心组件的架构 3.1、HDFS 3.2、MapReduce 3.3、YARN 四、实时计算和离线计算的过程
大数据真好玩
2021-05-08
802
0
Yarn运行中的任务如何终止?
hadoop
https
网络安全
kerberos
html
我们的作业是使用yarn来调度的,那么肯定就需要使用相关的命令来进行管理,简单的有查询任务列表和killed某一个正在运行中的任务。
大数据真好玩
2021-03-30
7K
0
Flink结合Kafka实时写入Iceberg实践笔记
hive
flink
hadoop
大数据
kafka
环境:本地测试环境 JDK1.8 、Flink 1.11.2 、Hadoop3.0.0 、Hive2.1.1
大数据真好玩
2021-03-27
1.6K
0
Apache拯救世界之数据质量监控工具 - Apache Griffin
apache
大数据
sql
hadoop
https
最近我发现,Apache已经成了解决问题的解决我们日常问题的首选宝藏之地。这几天在调研数据质量监控的东西时,无意中发现了Apache Griffin。
大数据真好玩
2021-01-26
5.9K
0
代达罗斯之殇-大数据领域小文件问题解决攻略
文件存储
hive
hadoop
大数据
spark
海量小文件问题是工业界和学术界公认的难题,大数据领域中的小文件问题,也是一个非常棘手的问题,仅次于数据倾斜问题,对于时间和性能能都是毁灭性打击。本文参考网上对于小文件问题的定义和常见系统的解决方案,给大家还原一个大数据系统中小文件问题的系统性解决方案。
大数据真好玩
2021-01-26
1.3K
0
多套Kylin集群共享Hbase和Hadoop计算集群关键配置最佳实践
node.js
hadoop
html
hbase
大数据
由于Kylin的本身架构(广播特性)和业务特点通常不适用于单套Kylin集群的节点过多,通常大家采用拆分Kylin集群但是共用底层的Hbase集群和计算集群的方式进行部署。本文主要根据目前咱们的实践经验对于此种场景集群配置进行分享,希望对大家有所帮助。
大数据真好玩
2021-01-26
900
0
Spark SQL读写 ES7.x 及问题总结
python
es
spark
ide
hadoop
ES官方提供了对spark的支持,可以直接通过spark读写es,具体可以参考ES Spark Support文档(https://www.elastic.co/guide/en/elasticsearch/hadoop/current/spark.html#spark)
大数据真好玩
2021-01-26
3.1K
0
【大数据哔哔集20210111】HDFS中的常用压缩算法及区别
hadoop
mapreduce
javascript
hive
文件存储
sequenceFile文件是Hadoop用来存储二进制形式的[Key,Value]对而设计的一种平面文件(Flat File)。可以把SequenceFile当做是一个容器,把所有的文件打包到SequenceFile类中可以高效的对小文件进行存储和处理。SequenceFile文件并不按照其存储的Key进行排序存储,SequenceFile的内部类Writer提供了append功能。SequenceFile中的Key和Value可以是任意类型Writable或者是自定义Writable。
大数据真好玩
2021-01-21
937
0
工作流引擎比较:Airflow、Azkaban、Conductor、Oozie和 Amazon Step Functions
网站
hadoop
负载均衡
负载均衡缓存
我不是任何这些引擎的专家,但已经使用了其中的一些(Airflow和Azkaban)并检查了代码,对于其他一些产品,我要么只阅读代码(Conductor)或文档(Oozie / AWS步骤函数),由于大多数是OSS项目,我当然可能错过了某些未记录的功能或社区贡献的插件。如果你发现任何错误,我很乐意更新。
大数据真好玩
2020-06-15
5.5K
0
一段Flink连接Kafka输出到HDFS的代码
hadoop
flink
大数据
其中flink-connector-filesystem_2.11是将Hadoop作为Flink的BucketingSink接入,
大数据真好玩
2020-06-12
1.3K
0
这个面试问题很难么 | 如何处理大数据中的数据倾斜
spark
linux
mapreduce
hadoop
大数据
数据倾斜是我们在处理大数据量问题时绕不过去的问题,也是在面试中几乎必问的考点。 正常的数据分布理论上都是倾斜的,就是我们所说的'二八原理':80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量。 简单来说数据倾斜就是数据的key 的分化严重不均,造成一部分数据很多,一部分数据很少的局面。
大数据真好玩
2019-12-03
801
0
你需要的不是实时数仓 | 你需要的是一款强大的OLAP数据库(下)
hive
https
网络安全
spark
hadoop
场景描述:今年有个现象,实时数仓的建设突然就被大家所关注。我个人在公众号也写过和转载过几篇关于实时数据仓库建设的文章和方案。
大数据真好玩
2019-09-17
3K
0
Spark Core源码精读计划 | SparkContext组件初始化
hadoop
spark
SparkContext在整个Spark Core中的地位毋庸置疑,可以说是核心中的核心。它存在于Driver中,是Spark功能的主要入口,如果没有SparkContext,我们的应用就无法运行,也就无从享受Spark为我们带来的种种便利。
大数据真好玩
2019-08-08
609
0
Spark Core源码精读计划4 | SparkContext提供的其他功能
编程算法
spark
hadoop
前面两篇文章一直在讲SparkContext初始化的内部逻辑,除此之外,它也对外提供一部分其他功能,我们挑选几个主要的来简要了解。SparkContext还有一个伴生对象,里面涉及到一些SparkContext创建的内部机制。
大数据真好玩
2019-08-08
463
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档