腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

暴走大数据

专栏作者

298

文章

535509

阅读量

99

订阅数

Hudi与Spark和HDFS的集成安装使用

大数据 shell hadoop 面向对象编程打包

将maven的安装包上传到centos7服务器上，并解压，然后配置系统环境变量即可

大数据真好玩

2022-06-17

1.2K0

基于Seatunnel连通Hive和ClickHouse实战

编程算法 spark hive jquery hadoop

官方推荐的 seatunnel1.5.7+spark2.4.8+scala2.11

大数据真好玩

2022-06-17

2K0

大数据之Hadoop企业级生产调优手册(上)

hadoop node.js 腾讯云测试服务 xml 大数据

每个文件块大概占用 150byte，一台服务器 128G内存为例，能存储多少文件块呢？128 * 128 * 1024 * 1024 / 150Byte ≈ 9.1亿

大数据真好玩

2021-10-12

1.3K0

Hadoop重点难点：Hadoop IO/压缩/序列化

node.js hadoop 文件存储存储数据处理

序列化是指将结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。反序列化是指将字节流转回结构化对象的逆过程。

大数据真好玩

2021-10-12

9200

【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇

大数据 hadoop node.js vr 视频解决方案 mapreduce

2021年初的时候，关于Hadoop要退休淘汰的PR文章甚嚣尘上。其中MapReduce思想最为人所诟病，因为其并不友好的写代码方式，高昂的维护成本以及较差的运行效率。

大数据真好玩

2021-09-18

5500

Hive文件存储格式和Hive数据压缩小总结

存储 hadoop 文件存储 hive mapreduce

HiveQL语句最终都将转换成为hadoop中的MapReduce job,而MapReduce job可以有对处理的数据进行压缩。

大数据真好玩

2021-09-18

1K0

新手友好 | Hadoop-架构、原理、实时计算和离线计算

hadoop 分布式 hive 大数据数据分析

一、什么是Hadoop 二、Hadoop各个组件的作用三、Hadoop核心组件的架构 3.1、HDFS 3.2、MapReduce 3.3、YARN 四、实时计算和离线计算的过程

大数据真好玩

2021-05-08

8020

Yarn运行中的任务如何终止？

hadoop https 网络安全 kerberos html

我们的作业是使用yarn来调度的，那么肯定就需要使用相关的命令来进行管理，简单的有查询任务列表和killed某一个正在运行中的任务。

大数据真好玩

2021-03-30

7K0

Flink结合Kafka实时写入Iceberg实践笔记

hive flink hadoop 大数据 kafka

环境：本地测试环境 JDK1.8 、Flink 1.11.2 、Hadoop3.0.0 、Hive2.1.1

大数据真好玩

2021-03-27

1.6K0

Apache拯救世界之数据质量监控工具 - Apache Griffin

apache 大数据 sql hadoop https

最近我发现，Apache已经成了解决问题的解决我们日常问题的首选宝藏之地。这几天在调研数据质量监控的东西时，无意中发现了Apache Griffin。

大数据真好玩

2021-01-26

5.9K0

代达罗斯之殇-大数据领域小文件问题解决攻略

文件存储 hive hadoop 大数据 spark

海量小文件问题是工业界和学术界公认的难题，大数据领域中的小文件问题，也是一个非常棘手的问题，仅次于数据倾斜问题，对于时间和性能能都是毁灭性打击。本文参考网上对于小文件问题的定义和常见系统的解决方案，给大家还原一个大数据系统中小文件问题的系统性解决方案。

大数据真好玩

2021-01-26

1.3K0

多套Kylin集群共享Hbase和Hadoop计算集群关键配置最佳实践

node.js hadoop html hbase 大数据

由于Kylin的本身架构（广播特性）和业务特点通常不适用于单套Kylin集群的节点过多，通常大家采用拆分Kylin集群但是共用底层的Hbase集群和计算集群的方式进行部署。本文主要根据目前咱们的实践经验对于此种场景集群配置进行分享，希望对大家有所帮助。

大数据真好玩

2021-01-26

9000

Spark SQL读写 ES7.x 及问题总结

python es spark ide hadoop

ES官方提供了对spark的支持，可以直接通过spark读写es，具体可以参考ES Spark Support文档(https://www.elastic.co/guide/en/elasticsearch/hadoop/current/spark.html#spark)

大数据真好玩

2021-01-26

3.1K0

【大数据哔哔集20210111】HDFS中的常用压缩算法及区别

hadoop mapreduce javascript hive 文件存储

sequenceFile文件是Hadoop用来存储二进制形式的[Key,Value]对而设计的一种平面文件(Flat File)。可以把SequenceFile当做是一个容器，把所有的文件打包到SequenceFile类中可以高效的对小文件进行存储和处理。SequenceFile文件并不按照其存储的Key进行排序存储，SequenceFile的内部类Writer提供了append功能。SequenceFile中的Key和Value可以是任意类型Writable或者是自定义Writable。

大数据真好玩

2021-01-21

9370

工作流引擎比较：Airflow、Azkaban、Conductor、Oozie和 Amazon Step Functions

网站 hadoop 负载均衡负载均衡缓存

我不是任何这些引擎的专家，但已经使用了其中的一些（Airflow和Azkaban）并检查了代码，对于其他一些产品，我要么只阅读代码（Conductor）或文档（Oozie / AWS步骤函数），由于大多数是OSS项目，我当然可能错过了某些未记录的功能或社区贡献的插件。如果你发现任何错误，我很乐意更新。

大数据真好玩

2020-06-15

5.5K0

一段Flink连接Kafka输出到HDFS的代码

hadoop flink 大数据

其中flink-connector-filesystem_2.11是将Hadoop作为Flink的BucketingSink接入，

大数据真好玩

2020-06-12

1.3K0

这个面试问题很难么 | 如何处理大数据中的数据倾斜

spark linux mapreduce hadoop 大数据

数据倾斜是我们在处理大数据量问题时绕不过去的问题，也是在面试中几乎必问的考点。正常的数据分布理论上都是倾斜的，就是我们所说的'二八原理'：80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量。简单来说数据倾斜就是数据的key 的分化严重不均，造成一部分数据很多，一部分数据很少的局面。

大数据真好玩

2019-12-03

8010

你需要的不是实时数仓 | 你需要的是一款强大的OLAP数据库(下)

hive https 网络安全 spark hadoop

场景描述：今年有个现象，实时数仓的建设突然就被大家所关注。我个人在公众号也写过和转载过几篇关于实时数据仓库建设的文章和方案。

大数据真好玩

2019-09-17

3K0

Spark Core源码精读计划 | SparkContext组件初始化

SparkContext在整个Spark Core中的地位毋庸置疑，可以说是核心中的核心。它存在于Driver中，是Spark功能的主要入口，如果没有SparkContext，我们的应用就无法运行，也就无从享受Spark为我们带来的种种便利。

大数据真好玩

2019-08-08

6090

Spark Core源码精读计划4 | SparkContext提供的其他功能

编程算法 spark hadoop

前面两篇文章一直在讲SparkContext初始化的内部逻辑，除此之外，它也对外提供一部分其他功能，我们挑选几个主要的来简要了解。SparkContext还有一个伴生对象，里面涉及到一些SparkContext创建的内部机制。

大数据真好玩

2019-08-08

4630

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态