腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

暴走大数据

专栏作者

298

文章

534240

阅读量

99

订阅数

基于Seatunnel连通Hive和ClickHouse实战

编程算法 spark hive jquery hadoop

官方推荐的 seatunnel1.5.7+spark2.4.8+scala2.11

大数据真好玩

2022-06-17

2K0

【Spark重点难点】你从未深入理解的RDD和关键角色

spark flink 大数据分布式编程算法

之前我们成功完成了Flink重点难点部分的学习了。很多同学可能还没有意识到,你已经把Flink这个框架中最关键的部分掌握了。Flink的重点难点部分就是我列在这里的部分：

大数据真好玩

2021-12-02

4100

SparkSQL并行执行多个Job的探索

spark sql 数据库编程算法 linux

Spark是以TaskSetManager为单元来调度任务的。通常情况下，任务队列中只会有一个TaskSetManager，而通过多线程提交多个Job时，则会有多个TaskSetManager被丢到任务队列中。在有空闲资源的情况下，谁会从队列里被取出来执行就取决于相应的调度策略了。目前，Spark支持FIFO和FAIR两种调度策略。

大数据真好玩

2021-11-16

1.4K0

Hive计算引擎大PK，万字长文解析MapRuce、Tez、Spark三大引擎

linux spark hive sql mapreduce

Hive从2008年始于FaceBook工程师之手，经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本，Hive从最开始的为人诟病的速度慢迅速发展，开始支持更多的计算引擎，计算速度大大提升。

大数据真好玩

2021-11-05

2K0

Hive重点难点：Hive原理&优化&面试(下)

spark sql 数据库存储文件存储

Map在读取数据时，先将数据拆分成若干数据，并读取到Map方法中被处理。数据在输出的时候，被分成若干分区并写入内存缓存（buffer）中，内存缓存被数据填充到一定程度会溢出到磁盘并排序，当Map执行完后会将一个机器上输出的临时文件进行归并存入到HDFS中。

大数据真好玩

2021-10-25

1.4K0

昨天的一个问题及答案(关键字Gzip、MapReduce、Spark)

javascript vr 视频解决方案 spark 大数据存储

OK，我们知道gzip不可分割了。那么一个10G的gzip文件在HDFS是怎么存储的呢？

大数据真好玩

2021-10-12

4500

Spark必知必会 | Spark SQL自定义函数UDF、UDAF聚合函数以及开窗函数的使用

1、Spark SQL自定义函数就是可以通过scala写一个类，然后在SparkSession上注册一个函数并对应这个类，然后在SQL语句中就可以使用该函数了，首先定义UDF函数，那么创建一个SqlUdf类，并且继承UDF1或UDF2等等，UDF后边的数字表示了当调用函数时会传入进来有几个参数，最后一个R则表示返回的数据类型，如下图所示：

大数据真好玩

2021-09-18

3K0

Apache Spark 内存管理(堆内/堆外)详解

文件存储存储 jvm 缓存 spark

本文旨在梳理出Spark内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于Spark 2.1版本，阅读本文需要读者有一定的Spark和Java基础，了解RDD、Shuffle、JVM等相关概念。

大数据真好玩

2021-09-18

1.1K0

【硬刚大数据】从零到大数据专家面试篇之SparkSQL篇

云数据库 SQL Server sql spark 数据库 hive

Spark SQL是一个用来处理结构化数据的Spark组件，前身是shark，但是shark过多的依赖于hive如采用hive的语法解析器、查询优化器等，制约了Spark各个组件之间的相互集成，因此Spark SQL应运而生。

大数据真好玩

2021-09-18

2.2K0

我们在学习Spark的时候，到底在学习什么？

编程算法数据处理大数据存储 spark

Spark发展至今，应该说已经非常成熟了。是大数据计算领域不得不学习的框架。尤其是Spark在稳定性和社区发展的成熟度方面，基本可以吊打其他的大数据处理框架。

大数据真好玩

2021-07-08

4250

Apache Iceberg技术调研&在各大公司的实践应用大总结

flink 数据处理 spark 数据湖分析数据湖

作者在实际工作中调研了Iceberg的一些优缺点和在各大厂的应用，总结在下面。希望能给大家带来一些启示。

大数据真好玩

2021-07-07

3.7K0

Apache Spark 3.0 自适应查询优化在网易的深度实践及改进

mapreduce sql spark

本文基于 Apahce Spark 3.1.1 版本，讲述 AQE 自适应查询优化的原理，以及网易有数在 AQE 实践中遇到的痛点和做出的思考。

大数据真好玩

2021-07-07

7960

一篇并不起眼的Spark面试题

spark 数据库 sql 大数据数据分析

spark是借鉴了Mapreduce,并在其基础上发展起来的，继承了其分布式计算的优点并进行了改进，spark生态更为丰富，功能更为强大，性能更加适用范围广，mapreduce更简单，稳定性好。主要区别

大数据真好玩

2021-07-07

4.5K0

简单回答：SparkSQL数据抽象和SparkSQL底层执行过程

python spark api sql 数据库

就易用性而言，对比传统的MapReduce API，Spark的RDD API有了数量级的飞跃并不为过。然而，对于没有MapReduce和函数式编程经验的新手来说，RDD API仍然存在着一定的门槛。

大数据真好玩

2021-05-28

1.8K0

Spark报错与日志问题查询姿势指南

spark 数据库 sql c 语言 c++

可以在右侧搜索框中填对应application号找到任务，然后点击对应的application号链接，如下图所示：

大数据真好玩

2021-05-08

1.8K0

数据倾斜？Spark 3.0 AQE专治各种不服(上)

spark sql 大数据

Spark3.0已经发布半年之久，这次大版本的升级主要是集中在性能优化和文档丰富上，其中46%的优化都集中在Spark SQL上，SQL优化里最引人注意的非Adaptive Query Execution莫属了。

大数据真好玩

2021-02-23

2.6K0

数据倾斜？Spark 3.0 AQE专治各种不服(下)

批量计算 spark

FreeWheel团队通过高效的敏捷开发赶在 2020 年圣诞广告季之前在生产环境顺利发布上线，整体性能提升高达 40%（对于大 batch）的数据，AWS Cost 平均节省 25%~30%之间，大约每年至少能为公司节省百万成本。

大数据真好玩

2021-02-23

1K0

【大数据哔哔集20210117】Spark面试题灵魂40问

spark 大数据编程算法缓存 kafka

1）本地模式 Spark不一定非要跑在hadoop集群，可以在本地，起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地，一般都是为了方便调试，本地模式分三类 local：只启动一个executor local[k]:启动k个executor local[ * ]:启动跟cpu数目相同的 executor

大数据真好玩

2021-01-26

8070

【大数据哔哔集20210108】Spark Shuffle 和 Hadoop Shuffle有什么异同？

mapreduce spark 大数据数据结构 linux

Shuffle的本意是洗牌、混洗的意思，把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中，Shuffle更像是洗牌的逆过程，指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据，以便reduce端接收处理。其在MapReduce中所处的工作阶段是map输出后到reduce接收前，具体可以分为map端和reduce端前后两个部分。

大数据真好玩

2021-01-26

7800

代达罗斯之殇-大数据领域小文件问题解决攻略

文件存储 hive hadoop 大数据 spark

海量小文件问题是工业界和学术界公认的难题，大数据领域中的小文件问题，也是一个非常棘手的问题，仅次于数据倾斜问题，对于时间和性能能都是毁灭性打击。本文参考网上对于小文件问题的定义和常见系统的解决方案，给大家还原一个大数据系统中小文件问题的系统性解决方案。

大数据真好玩

2021-01-26

1.3K0

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态