首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >如何在Spark Streaming中从DStream中删除RDD?

如何在Spark Streaming中从DStream中删除RDD?
EN

Stack Overflow用户
提问于 2014-10-28 05:55:39
回答 2查看 1.2K关注 0票数 0

我想从DStream中删除前n个RDDs。我尝试将以下函数与transform一起使用,但它不起作用(ERROR OneForOneStrategy: org.apache.spark.SparkContext java.io.NotSerializableException),而且我认为它不会实现我删除RDD的真正目标,因为它将返回空的RDD。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
var num = 0
def dropNrdds(myRDD: RDD[(String, Int)], dropNum: Int) : RDD[(String, Int)] = {
    if (num < dropNum) {
        num = num + 1
        return myRDD
    }
    else {
        return sc.makeRDD(Seq())
    }
}
EN

回答 2

Stack Overflow用户

发布于 2014-10-28 10:10:04

出现这个错误是因为您的函数引用了您的var num,并且包含的类不是Serializable。您的函数将由集群的不同节点调用,因此它所依赖的任何东西都必须是Serializable的,并且您不能在函数的不同调用之间共享变量(因为它们可能在不同的集群节点上运行)。

要从DStream中删除特定数量的RDD似乎非常奇怪,因为特定DStream的拆分方式很大程度上是一个实现细节。也许基于时间的slice方法可以做你想做的事?

票数 1
EN

Stack Overflow用户

发布于 2016-08-08 21:09:22

你得到了错误,因为,我猜你是从

foreachRdd

循环,它实际上是在executers节点上执行的,如果你想在executor节点上执行一些东西,那么这段代码必须是可序列化的,而SparkContext(sc,你在dropNrdds方法中引用它)是不可序列化的,因此你得到了那个错误。

然后来问你的实际问题。

不确定你的要求,但是

您可以为您的RDD创建一个DataFrame,并选择符合您的条件的记录。忽略剩下的部分。

您可以使用filter并创建一个带有filters data的全新

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/26601721

复制
相关文章
Spark Streaming 快速入门系列(3) | DStream中如何创建数据源
  测试过程中,可以通过使用ssc.queueStream(queueOfRDDs)来创建DStream,每一个推送到这个队列中的RDD,都会作为一个DStream处理。
不温卜火
2020/10/28
1K0
Spark Streaming 快速入门系列(3) | DStream中如何创建数据源
Spark Streaming——Spark第一代实时计算引擎
虽然SparkStreaming已经停止更新,Spark的重点也放到了 Structured Streaming ,但由于Spark版本过低或者其他技术选型问题,可能还是会选择SparkStreaming。SparkStreaming对于时间窗口,事件时间虽然支撑较少,但还是可以满足部分的实时计算场景的,SparkStreaming资料较多,这里也做一个简单介绍。
用户6070864
2020/08/11
7340
spark零基础学习线路指导
问题导读 1.你认为spark该如何入门? 2.你认为spark入门编程需要哪些步骤? 3.本文介绍了spark哪些编程知识? spark学习一般都具有hadoop基础,所以学习起来更
用户1410343
2018/03/26
2.1K0
spark零基础学习线路指导
spark零基础学习线路指导【包括spark2】
问题导读 1.你认为spark该如何入门? 2.你认为spark入门编程需要哪些步骤? 3.本文介绍了spark哪些编程知识?
用户1410343
2018/07/26
1.5K0
spark零基础学习线路指导【包括spark2】
SparkStreaming学习笔记
        (*)Spark Streaming是核心Spark API的扩展,可实现可扩展、高吞吐量、可容错的实时数据流处理。数据可以从诸如Kafka,Flume,Kinesis或TCP套接字等众多来源获取,并且可以使用由高级函数(如map,reduce,join和window)开发的复杂算法进行流数据处理。最后,处理后的数据可以被推送到文件系统,数据库和实时仪表板。而且,您还可以在数据流上应用Spark提供的机器学习和图处理算法。
曼路
2018/10/18
1.1K0
Spark Streaming——Spark第一代实时计算引擎
虽然SparkStreaming已经停止更新,Spark的重点也放到了 Structured Streaming ,但由于Spark版本过低或者其他技术选型问题,可能还是会选择SparkStreaming。 SparkStreaming对于时间窗口,事件时间虽然支撑较少,但还是可以满足部分的实时计算场景的,SparkStreaming资料较多,这里也做一个简单介绍。
大数据流动
2020/08/11
8390
Spark Streaming详解(重点窗口计算)
如同SparkContext一样,StreamingContext也是Spark Streaming应用程序通往Spark集群的通道,它的定义如下:
全栈程序员站长
2022/09/14
3830
Spark Streaming详解(重点窗口计算)
Spark Streaming 数据清理机制
为啥要了解机制呢?这就好比JVM的垃圾回收,虽然JVM的垃圾回收已经巨牛了,但是依然会遇到很多和它相关的case导致系统运行不正常。
用户2936994
2018/08/27
1.2K0
Spark的Streaming和Spark的SQL简单入门学习
1、Spark Streaming是什么? a、Spark Streaming是什么?   Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算。而结果也能保存在很多地
别先生
2018/05/16
9520
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN
片刻
2018/01/05
2.2K0
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN
基于大数据和机器学习的Web异常参数检测系统Demo实现
前 言 如何在网络安全领域利用数据科学解决安全问题一直是一个火热的话题,讨论算法和实现的文章也不少。前段时间看到楚安的文章《数据科学在Web威胁感知中的应用》,其中提到如何用隐马尔可夫模型(HMM)建立web参数模型,检测注入类的web攻击。获益匪浅,遂尝试用python实现该算法,并尝试在大数据环境下的部署应用。 算法一般过程 隐马尔可夫模型是一个统计模型,可以利用这个模型解决三类基本问题: 学习问题:给定观察序列,学习出模型参数 评估问题:已知模型参数,评估出观察序列出现在这个模型下的概率
FB客服
2018/02/24
2.7K0
基于大数据和机器学习的Web异常参数检测系统Demo实现
图解大数据 | 流式数据处理-Spark Streaming
教程地址:http://www.showmeai.tech/tutorials/84
ShowMeAI
2022/03/08
1.3K1
图解大数据 | 流式数据处理-Spark Streaming
《从0到1学习Spark》—Spark Streaming的背后故事
之前小强和大家共同和写了一个Spark Streaming版本的workcount,那小强发这篇文章和大家聊聊,Streaming背后的故事。
程序员小强
2019/05/31
5570
大数据技术之_19_Spark学习_04_Spark Streaming 应用解析 + Spark Streaming 概述、运行、解析 + DStream 的输入、转换、输出 + 优化
  Spark Streaming 类似于 Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming 有高吞吐量和容错能力强等特点。Spark Streaming 支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 的高度抽象,如:map、reduce、join、window 等进行运算。而结果也能保存在很多地方,如 HDFS,数据库等。另外 Spark Streaming 也能和 MLlib(机器学习)以及 Graphx 完美融合。
黑泽君
2019/05/13
2K0
大数据技术之_19_Spark学习_04_Spark Streaming 应用解析 + Spark Streaming 概述、运行、解析 + DStream 的输入、转换、输出 + 优化
Spark Streaming + Kakfa 编程指北
本文简述如何结合 Spark Streaming 和 Kakfa 来做实时计算。截止目前(2016-03-27)有两种方式:
codingforfun
2018/08/24
4410
简谈Spark Streaming的实时计算整合
基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming、Spark SQL、MLlib、GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里,我们基于1.3.0版本的Spark搭建了计算平台,实现基于Spark Streaming的实时计算。 我们的应用场景是分析用户使用手机App的行为。 手机客户端会收集用户的行为事件(我们以点击事件为例),将数据发送到数
企鹅号小编
2018/02/05
1.1K0
简谈Spark Streaming的实时计算整合
Spark Streaming快速入门系列(7)
一般的大型集群和平台, 都需要对其进行监控的需求。 要针对各种数据库, 包括 MySQL, HBase 等进行监控 要针对应用进行监控, 例如 Tomcat, Nginx, Node.js 等 要针对硬件的一些指标进行监控, 例如 CPU, 内存, 磁盘 等
刘浩的BigDataPath
2021/04/13
8180
Spark Streaming快速入门系列(7)
Spark基础全解析
第一,MapReduce模型的抽象层次低,大量的底层逻辑都需要开发者手工完成。 第二,只提供Map和Reduce两个操作。 举个例子,两个数据集的Join是很基本而且常用的功能,但是在MapReduce的世界中,需要对这两个数据集 做一次Map和Reduce才能得到结果。 第三,在Hadoop中,每一个Job的计算结果都会存储在HDFS文件存储系统中,所以每一步计算都要进行硬 盘的读取和写入,大大增加了系统的延迟。 第四,只支持批数据处理,欠缺对流数据处理的支持。
luozhiyun
2020/03/19
1.3K0
Spark Streaming 基本操作
这里先引入一个基本的案例来演示流的创建:获取指定端口上的数据并进行词频统计。项目依赖和代码实现如下:
每天进步一点点
2022/07/27
5830
Spark Streaming 基本操作
BigData--大数据技术之SparkStreaming
所有基于窗口的操作都需要两个参数,分别为窗口时长以及滑动步长,两者都必须是 StreamContext 的批次间隔的整数倍。
MiChong
2020/09/24
8690
BigData--大数据技术之SparkStreaming

相似问题

Spark streaming DStream RDD获取文件名

30

Spark Streaming - DStream没有distinct()

21

在Spark Streaming中刷新RDD

21

Spark Streaming中的RDD分布

12

Spark streaming RDD分区

10
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文