首页
学习
活动
专区
工具
TVP
发布

暴走大数据

专栏作者
298
文章
535509
阅读量
99
订阅数
Hudi与Spark和HDFS的集成安装使用
将maven的安装包上传到centos7服务器上,并解压,然后配置系统环境变量即可
大数据真好玩
2022-06-17
1.2K0
基于Seatunnel连通Hive和ClickHouse实战
官方推荐的 seatunnel1.5.7+spark2.4.8+scala2.11
大数据真好玩
2022-06-17
2K0
大数据之Hadoop企业级生产调优手册(上)
每个文件块大概占用 150byte,一台服务器 128G内存为例,能存储多少文件块呢?128 * 128 * 1024 * 1024 / 150Byte ≈ 9.1亿
大数据真好玩
2021-10-12
1.3K0
Hadoop重点难点:Hadoop IO/压缩/序列化
序列化是指将结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。反序列化是指将字节流转回结构化对象的逆过程。
大数据真好玩
2021-10-12
9200
【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇
2021年初的时候,关于Hadoop要退休淘汰的PR文章甚嚣尘上。其中MapReduce思想最为人所诟病,因为其并不友好的写代码方式,高昂的维护成本以及较差的运行效率。
大数据真好玩
2021-09-18
5500
Hive文件存储格式和Hive数据压缩小总结
HiveQL语句最终都将转换成为hadoop中的MapReduce job,而MapReduce job可以有对处理的数据进行压缩。
大数据真好玩
2021-09-18
1K0
新手友好 | Hadoop-架构、原理、实时计算和离线计算
一、什么是Hadoop 二、Hadoop各个组件的作用 三、Hadoop核心组件的架构 3.1、HDFS 3.2、MapReduce 3.3、YARN 四、实时计算和离线计算的过程
大数据真好玩
2021-05-08
8020
Yarn运行中的任务如何终止?
我们的作业是使用yarn来调度的,那么肯定就需要使用相关的命令来进行管理,简单的有查询任务列表和killed某一个正在运行中的任务。
大数据真好玩
2021-03-30
7K0
Flink结合Kafka实时写入Iceberg实践笔记
环境:本地测试环境 JDK1.8 、Flink 1.11.2 、Hadoop3.0.0 、Hive2.1.1
大数据真好玩
2021-03-27
1.6K0
Apache拯救世界之数据质量监控工具 - Apache Griffin
最近我发现,Apache已经成了解决问题的解决我们日常问题的首选宝藏之地。这几天在调研数据质量监控的东西时,无意中发现了Apache Griffin。
大数据真好玩
2021-01-26
5.9K0
代达罗斯之殇-大数据领域小文件问题解决攻略
海量小文件问题是工业界和学术界公认的难题,大数据领域中的小文件问题,也是一个非常棘手的问题,仅次于数据倾斜问题,对于时间和性能能都是毁灭性打击。本文参考网上对于小文件问题的定义和常见系统的解决方案,给大家还原一个大数据系统中小文件问题的系统性解决方案。
大数据真好玩
2021-01-26
1.3K0
多套Kylin集群共享Hbase和Hadoop计算集群关键配置最佳实践
由于Kylin的本身架构(广播特性)和业务特点通常不适用于单套Kylin集群的节点过多,通常大家采用拆分Kylin集群但是共用底层的Hbase集群和计算集群的方式进行部署。本文主要根据目前咱们的实践经验对于此种场景集群配置进行分享,希望对大家有所帮助。
大数据真好玩
2021-01-26
9000
Spark SQL读写 ES7.x 及问题总结
ES官方提供了对spark的支持,可以直接通过spark读写es,具体可以参考ES Spark Support文档(https://www.elastic.co/guide/en/elasticsearch/hadoop/current/spark.html#spark)
大数据真好玩
2021-01-26
3.1K0
【大数据哔哔集20210111】HDFS中的常用压缩算法及区别
sequenceFile文件是Hadoop用来存储二进制形式的[Key,Value]对而设计的一种平面文件(Flat File)。可以把SequenceFile当做是一个容器,把所有的文件打包到SequenceFile类中可以高效的对小文件进行存储和处理。SequenceFile文件并不按照其存储的Key进行排序存储,SequenceFile的内部类Writer提供了append功能。SequenceFile中的Key和Value可以是任意类型Writable或者是自定义Writable。
大数据真好玩
2021-01-21
9370
工作流引擎比较:Airflow、Azkaban、Conductor、Oozie和 Amazon Step Functions
我不是任何这些引擎的专家,但已经使用了其中的一些(Airflow和Azkaban)并检查了代码,对于其他一些产品,我要么只阅读代码(Conductor)或文档(Oozie / AWS步骤函数),由于大多数是OSS项目,我当然可能错过了某些未记录的功能或社区贡献的插件。如果你发现任何错误,我很乐意更新。
大数据真好玩
2020-06-15
5.5K0
一段Flink连接Kafka输出到HDFS的代码
其中flink-connector-filesystem_2.11是将Hadoop作为Flink的BucketingSink接入,
大数据真好玩
2020-06-12
1.3K0
这个面试问题很难么 | 如何处理大数据中的数据倾斜
数据倾斜是我们在处理大数据量问题时绕不过去的问题,也是在面试中几乎必问的考点。 正常的数据分布理论上都是倾斜的,就是我们所说的'二八原理':80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量。 简单来说数据倾斜就是数据的key 的分化严重不均,造成一部分数据很多,一部分数据很少的局面。
大数据真好玩
2019-12-03
8010
你需要的不是实时数仓 | 你需要的是一款强大的OLAP数据库(下)
场景描述:今年有个现象,实时数仓的建设突然就被大家所关注。我个人在公众号也写过和转载过几篇关于实时数据仓库建设的文章和方案。
大数据真好玩
2019-09-17
3K0
Spark Core源码精读计划 | SparkContext组件初始化
SparkContext在整个Spark Core中的地位毋庸置疑,可以说是核心中的核心。它存在于Driver中,是Spark功能的主要入口,如果没有SparkContext,我们的应用就无法运行,也就无从享受Spark为我们带来的种种便利。
大数据真好玩
2019-08-08
6090
Spark Core源码精读计划4 | SparkContext提供的其他功能
前面两篇文章一直在讲SparkContext初始化的内部逻辑,除此之外,它也对外提供一部分其他功能,我们挑选几个主要的来简要了解。SparkContext还有一个伴生对象,里面涉及到一些SparkContext创建的内部机制。
大数据真好玩
2019-08-08
4630
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档