Spark学习技巧-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark学习技巧

本公众号主要分享Spark使用及源码，spark 机器学习，图计算，同时会涉及到hadoop家族。

专栏成员

810

文章

1301822

阅读量

248

订阅数

Spark+Celeborn：更快，更稳，更弹性

存储 spark 内存设计数据

Apache Spark 是广为流行的大数据处理引擎，它有很多使用场景: Spark SQL、批处理、流处理、MLLIB、GraphX 等。在所有组件下是统一的 RDD 抽象，RDD 血缘通过两种依赖关系描述，窄依赖和宽依赖。其中宽依赖是支撑复杂算子（Join, Agg 等）的关键，而宽依赖实现机制就是 Shuffle。

Spark学习技巧

2024-01-22

8110

万字Spark性能优化宝典（收藏版）

spark 磁盘内存数据性能优化

导读：发现一篇好文，分享给大家。全文分为四个部分，基本涵盖了所有Spark优化的点，面试和实际工作中必备。全文较长，建议收藏后PC端查看或工作中问题troubleshooting。

Spark学习技巧

2023-12-04

8650

60+张PPT，教你如何搭建Spark离线数仓！

📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷

Spark学习技巧

2023-03-21

7850

Spark处理数据倾斜过程记录

sql spark join key shuffle

数据倾斜是指我们在并行进行数据处理的时候，由于数据散列引起Spark的单个Partition的分布不均，导致大量的数据集中分布到一台或者几台计算节点上，导致处理速度远低于平均计算速度，从而拖延导致整个计算过程过慢，影响整个计算性能。

Spark学习技巧

2023-03-21

1K0

Spark DataSource API v2 版本对比 v1有哪些改进？

api java python spark scala

1. 由于其输入参数包括 DataFrame / SQLContext，因此 DataSource API 兼容性取决于这些上层的 API。

Spark学习技巧

2022-04-18

8750

万字详解 Spark Core 开发调优（建议收藏）

spark 文件存储数据库大数据数据结构

前两天和大家分享了一篇关于 Spark Core 数据倾斜调优相关的文章，今天继续和大家分享一篇关于 Spark 开发调优的文章，干货文章，建议收藏！

Spark学习技巧

2022-04-18

4840

一篇并不起眼的Spark面试题

spark 数据库 sql 大数据数据分析

spark是借鉴了Mapreduce,并在其基础上发展起来的，继承了其分布式计算的优点并进行了改进，spark生态更为丰富，功能更为强大，性能更加适用范围广，mapreduce更简单，稳定性好。主要区别

Spark学习技巧

2022-04-18

9210

SparkSQL并行执行多个Job的探索

spark sql 数据库 linux 编程算法

Spark是以TaskSetManager为单元来调度任务的。通常情况下，任务队列中只会有一个TaskSetManager，而通过多线程提交多个Job时，则会有多个TaskSetManager被丢到任务队列中。在有空闲资源的情况下，谁会从队列里被取出来执行就取决于相应的调度策略了。目前，Spark支持FIFO和FAIR两种调度策略。

Spark学习技巧

2022-03-14

1.7K0

三万字长文 | Spark性能优化实战手册

spark 数据库大数据数据分析数据结构

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。

Spark学习技巧

2022-03-14

7450

干货|Spark优化之高性能Range Join

数据库 sql spark nest node.js

Carmel是eBay内部基于Apache Spark打造的一款SQL-on-Hadoop查询引擎。通过对Apache Spark的改进，我们为用户提供了一套高可用高性能的服务，以满足eBay内部大量分析型的查询需求（如今单日查询量已超过30万）。

Spark学习技巧

2022-01-13

1.7K0

Apache Spark 内存管理(堆内/堆外)详解

spark 文件存储存储 jvm 缓存

本文旨在梳理出Spark内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于Spark 2.1版本，阅读本文需要读者有一定的Spark和Java基础，了解RDD、Shuffle、JVM等相关概念。

Spark学习技巧

2022-01-13

1.5K0

数据本地性对 Spark 生产作业容错能力的负面影响

spark 数据分析 https node.js 大数据

作者：Kent_Yao 链接：https://www.jianshu.com/p/72ffaa10220

Spark学习技巧

2021-03-29

8610

大数据开源框架技术汇总

apache hadoop 开源 spark 数据分析

Hadoop：Apache Hadoop是一个开源的分布式系统基础框架，离线数据的分布式存储和计算的解决方案。Hadoop最早起源于Nutch，Nutch基于2003 年、2004年谷歌发表的两篇论文分布式文件系统GFS和分布式计算框架MapReduce的开源实现HDFS和MapReduce。2005年推出，2008年1月成为Apache顶级项目。Hadoop分布式文件系统(HDFS)是革命性的一大改进，它将服务器与普通硬盘驱动器结合，并将它们转变为能够由Java应用程序兼容并行IO的分布式存储系统。Hadoop作为数据分布式处理系统的典型代表，形了成完整的生态圈，已经成为事实上的大数据标准，开源大数据目前已经成为互联网企业的基础设施。Hadoop主要包含分布式存储HDFS、离线计算引擎MapRduce、资源调度Apache YARN三部分。Hadoop2.0引入了Apache YARN作为资源调度。Hadoop3.0以后的版本对MR做了大量优化，增加了基于内存计算模型，提高了计算效率。比较普及的稳定版本是2.x，目前最新版本为3.2.0。

Spark学习技巧

2021-03-05

2.1K0

基于大数据的用户画像构建小百科全书

spark 数据挖掘数据库大数据数据处理

用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。通俗说就是给用户打标签，而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户，可以让人更容易理解用户，并且可以方便计算机处理。

Spark学习技巧

2021-03-05

1.2K0

不可不会的scala隐式转换

spark ide 打包

从类型S到类型T的隐式转换由具有函数类型S => T的隐式值定义，或者通过可转换为该类型的值的隐式方法来定义。隐含转换适用于两种情况：

Spark学习技巧

2021-03-05

7040

spark源码阅读基本思路

spark rpc linux flink 编程算法

a.解决企业中bug。比如flink早期bug，就很多，如json序列化工具，在开启flink仅一次处理，json格式不符合要求，就会抛异常而挂掉，然后重试，挂掉。这明显不科学，要解决这个bug就要会读源码，改源码。

Spark学习技巧

2021-03-05

1.3K0

尝尝鲜｜Spark 3.1自适应执行计划

每个框架产生都是为了解决一类问题，每个模块的优化也是为了解决一定的场景下的性能瓶颈。浪尖今天分享的关于Spark 3.1之后的自适应执行计划，主要针对以下几个场景，并且有百度率先研发的，不过社区之前一直没有采纳，spark 3.0的预发布版本参数也是不全，到了Spark 3.1的beta版已经可用，浪尖已经完成了测试。

Spark学习技巧

2021-03-05

8340

Spark join种类(>3种)及join选择依据

spark sql hashmap flink 大数据

join是作为业务开发绕不开的SQL话题，无论是传统的数据库join，还是大数据里的join。

Spark学习技巧

2021-03-05

9630

fs.defaultFS 变更，使spark-sql 查询hive失败原因分析

hive spark node.js 大数据

这个是粉丝投稿，很有价值，浪尖在这里给大家分享一下，也使得后面有粉丝遇到相同的问题，可以快速的解决，节省时间。

Spark学习技巧

2021-03-05

8030

Spark读写XML文件及注意事项

最近有粉丝问浪尖spark 如何读写xml格式的文件，尤其是嵌套型的，spark本身是不支持xml格式文件读取的，但是databricks开源了一个jar，支持xml文件的读写，浪尖这里给大家介绍一下用法。

Spark学习技巧

2021-03-05

1.7K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态