rdd - 标签 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

首页标签rdd

#rdd

为什么 Spec 不是终点，而只是中间产物？软件研发正在从 Spec 驱动，走向表示驱动（RDD）

梯度不陡 2026-05-182026-05-18 20:32:35

有 PRD，有设计稿，有接口定义，有代码上下文。把这些信息整理成一份 spec，交给 AI，就可以生成代码。

28810

Spark源码深度解析：Action算子如何触发Job提交？从RDD.count()看完整调用链

用户6320865 2025-11-282025-11-28 13:58:49

在大数据处理的日常工作中，Spark已经成为许多开发者和数据工程师不可或缺的工具。理解其核心概念，尤其是RDD（弹性分布式数据集）和Action算子，是掌握Sp...

39110

Spark RDD持久化深度解析：从persist()到cache()的陷阱与最佳实践

用户6320865 2025-11-282025-11-28 13:38:33

在深入探讨Spark RDD持久化机制之前，我们需要先理解RDD（弹性分布式数据集）的核心特性——惰性计算（Lazy Evaluation）。Spark的设计哲...

43110

Spark RDD核心原理解析：从弹性特性到源码与面试实战

用户6320865 2025-11-282025-11-28 13:38:21

此时rddB的血统信息会记录：“由rddA经map转换而来”。若rddB的某个分区丢失，Spark只需找到rddA的对应分区重新执行map函数即可恢复。这种机制...

60610

Spark源代码分析——谈RDD和依赖关系

jack.yang 2025-04-052025-04-05 15:40:46

为了更好地理解，这里我们使用HDFS上常见的HDFS实现：Hadoop RDD的实现。

34110

Spark 高级：RDD 使用

jack.yang 2025-04-052025-04-05 15:39:31

Spark 提供了数据的核心抽象，称为弹性分布式数据集（RDD）。此数据集的全部或部分可以缓存在内存中，并在多次计算期间重复使用。RDD实际上是一个分布在多个...

42100

【赵渝强老师】Spark RDD的依赖关系和任务阶段

赵渝强老师 2025-02-012025-02-01 20:17:58

Spark RDD彼此之间会存在一定的依赖关系。依赖关系有两种不同的类型：窄依赖和宽依赖。

51910

Spark编程实验二：RDD编程初级实践

Francek Chen 2025-01-222025-01-22 18:08:44

1、熟悉Spark的RDD基本操作及键值对操作； 2、熟悉使用RDD编程解决实际具体问题的方法。

1.4K00

RDD编程

Francek Chen 2025-01-222025-01-22 18:08:20

Spark采用textFile()方法来从文件系统中加载数据创建RDD 该方法把文件的URI作为参数，这个URI可以是：本地文件系统的地址、或...

86800

Spark中的RDD是什么？请解释其概念和特点。

GeekLiHua 2025-01-212025-01-21 16:54:18

Spark中的RDD（弹性分布式数据集）是一种分布式的、可并行操作的数据结构。它是Spark的核心抽象，用于表示分布式计算过程中的数据集合。

71100

Spark中使用RDD算子GroupBy做词频统计的方法

火之高兴 2024-07-252024-07-25 15:41:36

测试文件在本地D://tmp/spark.txt，Spark采用Local模式运行，Spark版本3.2.0，Scala版本2.12，集成idea开发环境。

46810

Spark RDD 整体介绍

Freedom123 2024-03-292024-03-29 08:40:31

RDD 介绍 RDD 弹性分布式数据集弹性：具有容错性，在节点故障导致丢失或者分区损坏，可以进行重新计算数据 ...

48210

我攻克的技术难题 - Spark01：初见Spark，又是Hello World？

叫我阿柒啊

腾讯云TDP ｜产品KOL (已认证)

2024-01-212024-01-21 23:54:05

在18年初刚开始接触学习spark的时候，买了一本《Spark大数据处理技术》的书，虽然后来一些Spark开发的知识都是从官网和实践中得来的，但是这本书对我来说...

55610

Spark记录 - 乐享诚美

司夜

腾讯｜后端开发 (已认证)

2023-10-182023-10-18 10:34:35

一、Spark 的5大优势： 1. 更高的性能。因为数据被加载到集群主机的分布式内存中。数据可以被快速的转换迭代，并缓存用以后续的频繁访问需求。在数据全部加载到...

43120

【Python】PySpark 数据计算 ⑤ ( RDD#sortBy方法 - 排序 RDD 中的元素 )

韩曙亮 2023-10-112023-10-11 20:12:40

RDD#sortBy 方法用于按照指定的键对 RDD 中的元素进行排序 , 该方法接受一个函数作为参数 , 该函数从 RDD 中的每个元素提取...

1.9K10

【Python】PySpark 数据计算 ④ ( RDD#filter 方法 - 过滤 RDD 中的元素 | RDD#distinct 方法 - 对 RDD 中的元素去重 )

韩曙亮 2023-10-112023-10-11 20:12:21

RDD#filter 方法可以根据指定的条件过滤 RDD 对象中的元素 , 并返回一个新的 RDD 对象 ;

1.6K10

【Python】PySpark 数据计算 ③ ( RDD#reduceByKey 函数概念 | RDD#reduceByKey 方法工作流程 | RDD#reduceByKey 语法 | 代码示例 )

韩曙亮 2023-10-112023-10-11 20:11:59

再后 , 将 rdd 数据的列表中的元素转为二元元组 , 第一个元素设置为单词字符串 , 第二个元素设置为 1

2.4K20

【Python】PySpark 数据计算 ② ( RDD#flatMap 方法 | RDD#flatMap 语法 | 代码示例 )

韩曙亮 2023-10-112023-10-11 20:09:57

RDD#map 方法可以将 RDD 中的数据元素逐个进行处理 , 处理的逻辑需要用外部通过参数传入 map 函数 ;

1.1K10

【Python】PySpark 数据计算 ① ( RDD#map 方法 | RDD#map 语法 | 传入普通函数 | 传入 lambda 匿名函数 | 链式调用 )

韩曙亮 2023-10-112023-10-11 20:09:33

在 PySpark 中 RDD 对象提供了一种数据计算方法 RDD#map 方法 ;

1.5K10

【Python】PySpark 数据输入 ① ( RDD 简介 | RDD 中的数据存储与计算 | Python 容器数据转 RDD 对象 | 文件文件转 RDD 对象 )

韩曙亮 2023-10-112023-10-11 20:08:52

RDD 英文全称为 " Resilient Distributed Datasets " , 对应中文名称是 " 弹性分布式数据集 " ;

2.5K10