开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >如何在Spark Streaming中从DStream中删除RDD？

问如何在Spark Streaming中从DStream中删除RDD？
EN

Stack Overflow用户

提问于 2014-10-28 05:55:39

回答 2查看 1.2K关注 0票数 0

我想从DStream中删除前n个RDDs。我尝试将以下函数与transform一起使用，但它不起作用(ERROR OneForOneStrategy: org.apache.spark.SparkContext java.io.NotSerializableException)，而且我认为它不会实现我删除RDD的真正目标，因为它将返回空的RDD。

var num = 0
def dropNrdds(myRDD: RDD[(String, Int)], dropNum: Int) : RDD[(String, Int)] = {
    if (num < dropNum) {
        num = num + 1
        return myRDD
    }
    else {
        return sc.makeRDD(Seq())
    }
}

spark-streaming

有奖征集｜云上CPU玩转AIGC挑战赛

参加活动赢取洛斐键盘、小米电纸书、智能音响等鹅厂周边！

EN

回答 2

Stack Overflow用户

发布于 2014-10-28 10:10:04

出现这个错误是因为您的函数引用了您的var num，并且包含的类不是Serializable。您的函数将由集群的不同节点调用，因此它所依赖的任何东西都必须是Serializable的，并且您不能在函数的不同调用之间共享变量(因为它们可能在不同的集群节点上运行)。

要从DStream中删除特定数量的RDD似乎非常奇怪，因为特定DStream的拆分方式很大程度上是一个实现细节。也许基于时间的slice方法可以做你想做的事？

票数 1

EN

Stack Overflow用户

发布于 2016-08-08 21:09:22

你得到了错误，因为，我猜你是从

foreachRdd

循环，它实际上是在executers节点上执行的，如果你想在executor节点上执行一些东西，那么这段代码必须是可序列化的，而SparkContext(sc，你在dropNrdds方法中引用它)是不可序列化的，因此你得到了那个错误。

然后来问你的实际问题。

不确定你的要求，但是

您可以为您的RDD创建一个DataFrame，并选择符合您的条件的记录。忽略剩下的部分。

或

您可以使用filter并创建一个带有filters data的全新

。

票数 0

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/26601721

复制

相关文章

Spark Streaming 快速入门系列(3) | DStream中如何创建数据源

kafka 腾讯云测试服务 spark

测试过程中，可以通过使用ssc.queueStream(queueOfRDDs)来创建DStream，每一个推送到这个队列中的RDD，都会作为一个DStream处理。

不温卜火

2020/10/28

1K0

Spark Streaming 快速入门系列(3) | DStream中如何创建数据源

Spark Streaming——Spark第一代实时计算引擎

spark kafka 编程算法 scala

虽然SparkStreaming已经停止更新，Spark的重点也放到了 Structured Streaming ，但由于Spark版本过低或者其他技术选型问题，可能还是会选择SparkStreaming。SparkStreaming对于时间窗口，事件时间虽然支撑较少，但还是可以满足部分的实时计算场景的，SparkStreaming资料较多，这里也做一个简单介绍。

用户6070864

2020/08/11

7340

spark零基础学习线路指导

问题导读 1.你认为spark该如何入门？ 2.你认为spark入门编程需要哪些步骤？ 3.本文介绍了spark哪些编程知识？ spark学习一般都具有hadoop基础，所以学习起来更

用户1410343

2018/03/26

2.1K0

spark零基础学习线路指导【包括spark2】

spark php hadoop

问题导读 1.你认为spark该如何入门？ 2.你认为spark入门编程需要哪些步骤？ 3.本文介绍了spark哪些编程知识？

用户1410343

2018/07/26

1.5K0

spark零基础学习线路指导【包括spark2】

SparkStreaming学习笔记

spark api 编程算法数据处理数据库

（*）Spark Streaming是核心Spark API的扩展，可实现可扩展、高吞吐量、可容错的实时数据流处理。数据可以从诸如Kafka，Flume，Kinesis或TCP套接字等众多来源获取，并且可以使用由高级函数（如map，reduce，join和window）开发的复杂算法进行流数据处理。最后，处理后的数据可以被推送到文件系统，数据库和实时仪表板。而且，您还可以在数据流上应用Spark提供的机器学习和图处理算法。

曼路

2018/10/18

1.1K0

Spark Streaming——Spark第一代实时计算引擎

spark mapreduce kafka api python

虽然SparkStreaming已经停止更新，Spark的重点也放到了 Structured Streaming ，但由于Spark版本过低或者其他技术选型问题，可能还是会选择SparkStreaming。 SparkStreaming对于时间窗口，事件时间虽然支撑较少，但还是可以满足部分的实时计算场景的，SparkStreaming资料较多，这里也做一个简单介绍。

大数据流动

2020/08/11

8390

Spark Streaming详解(重点窗口计算)

spark 批量计算 linux

如同SparkContext一样，StreamingContext也是Spark Streaming应用程序通往Spark集群的通道，它的定义如下：

全栈程序员站长

2022/09/14

3830

Spark Streaming详解(重点窗口计算)

Spark Streaming 数据清理机制

为啥要了解机制呢？这就好比JVM的垃圾回收，虽然JVM的垃圾回收已经巨牛了，但是依然会遇到很多和它相关的case导致系统运行不正常。

用户2936994

2018/08/27

1.2K0

Spark的Streaming和Spark的SQL简单入门学习

1、Spark Streaming是什么？ a、Spark Streaming是什么？　　Spark Streaming类似于Apache Storm，用于流式数据的处理。根据其官方文档介绍，Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如：map、reduce、join、window等进行运算。而结果也能保存在很多地

别先生

2018/05/16

9520

Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN

spark 数据处理 hadoop apache

片刻

2018/01/05

2.2K0

Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN

基于大数据和机器学习的Web异常参数检测系统Demo实现

大数据机器学习网络安全

前言如何在网络安全领域利用数据科学解决安全问题一直是一个火热的话题，讨论算法和实现的文章也不少。前段时间看到楚安的文章《数据科学在Web威胁感知中的应用》，其中提到如何用隐马尔可夫模型(HMM)建立web参数模型，检测注入类的web攻击。获益匪浅，遂尝试用python实现该算法，并尝试在大数据环境下的部署应用。算法一般过程隐马尔可夫模型是一个统计模型，可以利用这个模型解决三类基本问题：学习问题：给定观察序列，学习出模型参数评估问题：已知模型参数，评估出观察序列出现在这个模型下的概率

FB客服

2018/02/24

2.7K0

基于大数据和机器学习的Web异常参数检测系统Demo实现

图解大数据 | 流式数据处理-Spark Streaming

大数据 spark

教程地址：http://www.showmeai.tech/tutorials/84

ShowMeAI

2022/03/08

1.3K1

图解大数据 | 流式数据处理-Spark Streaming

《从0到1学习Spark》—Spark Streaming的背后故事

之前小强和大家共同和写了一个Spark Streaming版本的workcount，那小强发这篇文章和大家聊聊，Streaming背后的故事。

程序员小强

2019/05/31

5570

大数据技术之_19_Spark学习_04_Spark Streaming 应用解析 + Spark Streaming 概述、运行、解析 + DStream 的输入、转换、输出 + 优化

spark 数据库数据备份 sql 编程算法

Spark Streaming 类似于 Apache Storm，用于流式数据的处理。根据其官方文档介绍，Spark Streaming 有高吞吐量和容错能力强等特点。Spark Streaming 支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 的高度抽象，如：map、reduce、join、window 等进行运算。而结果也能保存在很多地方，如 HDFS，数据库等。另外 Spark Streaming 也能和 MLlib（机器学习）以及 Graphx 完美融合。

黑泽君

2019/05/13

2K0

大数据技术之_19_Spark学习_04_Spark Streaming 应用解析 + Spark Streaming 概述、运行、解析 + DStream 的输入、转换、输出 + 优化

Spark Streaming + Kakfa 编程指北

本文简述如何结合 Spark Streaming 和 Kakfa 来做实时计算。截止目前（2016-03-27）有两种方式：

codingforfun

2018/08/24

4410

简谈Spark Streaming的实时计算整合

spark 大数据云数据库 Redis®数据库

基于Spark通用计算平台，可以很好地扩展各种计算类型的应用，尤其是Spark提供了内建的计算库支持，像Spark Streaming、Spark SQL、MLlib、GraphX，这些内建库都提供了高级抽象，可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里，我们基于1.3.0版本的Spark搭建了计算平台，实现基于Spark Streaming的实时计算。我们的应用场景是分析用户使用手机App的行为。手机客户端会收集用户的行为事件（我们以点击事件为例），将数据发送到数

企鹅号小编

2018/02/05

1.1K0

简谈Spark Streaming的实时计算整合

Spark Streaming快速入门系列（7）

spark api kafka 数据库 sql

一般的大型集群和平台, 都需要对其进行监控的需求。要针对各种数据库, 包括 MySQL, HBase 等进行监控要针对应用进行监控, 例如 Tomcat, Nginx, Node.js 等要针对硬件的一些指标进行监控, 例如 CPU, 内存, 磁盘等

刘浩的BigDataPath

2021/04/13

8180

Spark Streaming快速入门系列（7）

Spark基础全解析

spark api mapreduce sql 数据库

第一，MapReduce模型的抽象层次低，大量的底层逻辑都需要开发者手工完成。第二，只提供Map和Reduce两个操作。举个例子，两个数据集的Join是很基本而且常用的功能，但是在MapReduce的世界中，需要对这两个数据集做一次Map和Reduce才能得到结果。第三，在Hadoop中，每一个Job的计算结果都会存储在HDFS文件存储系统中，所以每一步计算都要进行硬盘的读取和写入，大大增加了系统的延迟。第四，只支持批数据处理，欠缺对流数据处理的支持。

luozhiyun

2020/03/19

1.3K0

Spark Streaming 基本操作

spark 云数据库 Redis®编程算法 windows 文件存储

这里先引入一个基本的案例来演示流的创建：获取指定端口上的数据并进行词频统计。项目依赖和代码实现如下：

每天进步一点点

2022/07/27

5830

Spark Streaming 基本操作

BigData--大数据技术之SparkStreaming

mapreduce scala kafka spark

所有基于窗口的操作都需要两个参数，分别为窗口时长以及滑动步长，两者都必须是 StreamContext 的批次间隔的整数倍。

MiChong

2020/09/24

8690

BigData--大数据技术之SparkStreaming

相似问题

Spark streaming DStream RDD获取文件名

30

Spark Streaming - DStream没有distinct()

21

在Spark Streaming中刷新RDD

21

Spark Streaming中的RDD分布

12

Spark streaming RDD分区

10

活动推荐

轻量应用服务器助力卖家与独立站拓展跨境电商业务

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例