如何在pyspark中过滤RDD时做两个测试？

在pyspark中过滤RDD时进行两个测试可以通过以下步骤实现：

创建一个RDD：首先，使用SparkContext对象创建一个RDD。例如，可以使用parallelize()方法从一个已有的集合创建RDD。例如，创建一个包含整数的RDD可以使用以下代码：from pyspark import SparkContext sc = SparkContext() data = [1, 2, 3, 4, 5] rdd = sc.parallelize(data)
过滤RDD：使用filter()方法对RDD进行过滤。该方法接受一个函数作为参数，该函数定义了过滤条件。只有满足条件的元素才会被保留在RDD中。例如，可以使用以下代码过滤RDD中的偶数：filtered_rdd = rdd.filter(lambda x: x % 2 == 0)
执行测试：可以使用collect()方法将过滤后的RDD转换为一个列表，并对结果进行断言来进行测试。例如，可以使用以下代码对过滤后的RDD进行测试：assert filtered_rdd.collect() == [2, 4]
另一种测试方法是使用count()方法来检查过滤后的RDD中元素的数量是否符合预期。例如，可以使用以下代码进行测试：assert filtered_rdd.count() == 2

这样，就可以在pyspark中过滤RDD时进行两个测试了。根据具体的需求，可以根据过滤条件和预期结果进行适当的断言和验证。

页面内容是否对你有帮助？

有帮助

没帮助

如何在pyspark中过滤RDD时做两个测试？

、、

我有两个参数：NB2_line=11 我有一个python函数，如果不正常，我对数据帧中的许多行进行了测试。

浏览 1提问于2018-08-06得票数 0

回答已采纳

2回答

使用pyspark将两个csv文件连接到键值rdd中

、、、

我正在尝试使用pyspark将两个没有共同之处(没有键是公共的)的csv文件组合成一个键值成对的rdd 让我们假设A.csv有 ac 而B.csv有 13 在pyspark中有没有一个选项可以通过连接这两个来获得一个rdd，就像这样 a:1c:3 当然，两个csv文件中的行数应该匹配。这是在pyspark中很容易做的事情，还是应该首先在常规的python中完成

浏览 13提问于2019-12-17得票数 0

1回答

我正在编写PySpark，我有一个RDD，打印时如下所示： [(-10.1571, -2.361), (-19.2108, 6.99), (10.1571, 4.47695), (22.5611, 20.360如您所见，这个RDD中的每个元素都有两个数据。现在我要做的是检查两个数据的符号是否不同，然后反转第二个数据的符号，以匹配第一个数据。例如，在(-19.2108, 6.99)中，两个数据的符号是不同的，所以我想反

浏览 2提问于2015-12-01得票数 1

回答已采纳

2回答

如何在spark map函数中使用字典中的json文件？

、、、

我使用的是pyspark。我想在Google地图上加载一个常规的file文件，比如" region -polygon-mapping“文件，其中包含了区域名称和它的多边形。当我处理另一个数据集RDD时，我想在map函数中使用" region - polygon -mapping“，比如测试RDD中的点是否在多边形的区域中。问题是如何在RDD map函数中将json用作常规文件。json文件非常小，spark不允许使用json作为第

浏览 0提问于2017-06-13得票数 0

2回答

火花RDD -分区总是在RAM中吗？

、、、、

我们都知道斯派克在内存中做计算。我只是对下面的内容感到好奇。如果我的数据集(文件)大小超过可用RAM大小，数据将存储在哪里？

浏览 5提问于2016-11-22得票数 21

回答已采纳

1回答

使用regex基于另一个RDD过滤一个RDD

、、、

我有两个RDD的表格：scala> data_wo_header.first我试图通过删除regEx与RDD2匹配的元素来过滤RDD2。上面示例中的1,2表示UserID，MovID。因为它存在于测试中，所以我希望新的RDD能够从RDD1中</

浏览 2提问于2017-03-12得票数 2

回答已采纳

1回答

将过滤的RDD添加到另一个RDD

、、

我想要创建一个RDD，它基于另一个具有1到多个关系的RDD的过滤结果子集。回溯(最近一次调用)：文件""，第1行，在文件中 "/usr/lib/spark/python/pyspark/rdd</e

浏览 0提问于2020-09-08得票数 1

回答已采纳

1回答

超长队列的spark任务是如何处理的？

、、

我使用pyspark处理多个日志文件，其中一条记录被分成多行格式，所以我选择wholeTextFiles来读取数据，然后过滤出我想要的内容。每个文件大小约800M，共有4096个文件。, 2500)out_rdd = file_rdd.flatMap(parseFileContent)\顺便说一句，如果有帮助，下面是关于处理的任务的更多信息：我在so ，和上发现了一些相关的问题，但他们只解释了高级内存消耗

浏览 20提问于2019-10-28得票数 0

1回答

在pyspark中使用foreachRDD和foreach遍历rdd

、、

Spark 1.6.1，pyspark的问题{"event":4,"Userid":12345,"time":123456789,"device_model":"iPhone阅读spark streaming编程指南中的“使用foreachRDD的设计模式”一节在数据集之外做一些事情时，似乎建议使用foreachRDD。在我的例子中，我希望通过网络将数据写入HBase，因此我对我的流数据使用foreachR

浏览 2提问于2016-05-28得票数 1

0回答

在UDF中引用另一个数据帧时，如何引用该数据帧？

、、、、

当在另一个数据帧上执行UDF时，如何引用一个pyspark数据帧？from pyspark import SparkConf from <em

浏览 6提问于2016-12-30得票数 6

回答已采纳

3回答

Spark:删除出现次数少于N次的行

、

假设我有以下rdd：anRDD = sc.parallelize(a)threshold = 2grouped_count

浏览 1提问于2016-08-16得票数 4

1回答

PySpark打印到控制台

、、

在dataproc服务器上运行PySpark作业时，如下所示编辑：我想在转换中打印/记录信息。def print_funct(l): return l rddData.map(lambda l: print

浏览 0提问于2016-05-24得票数 10

回答已采纳

5回答

过滤器为两个RDD

、

我需要将RDD分成两部分： 1满足条件的部分；不满足条件的另一部分。我可以在原始的RDD上做两次filter，但是它看起来效率很低。有什么办法能做到我想要的吗？我在API和文献中找不到任何东西。

浏览 4提问于2015-04-09得票数 20

回答已采纳

1回答

获取执行者任务在pyspark中的任务id

、、

我在pyspark中有一个rdd.foreachPartition(some_function)操作。some_function函数将executor中当前任务的数据写入所有executor通用位置的文件(如hdfs或s3 bucket)。但是在任何地方都找不到，如何在pyspark中获取任务ID。我在scala/java中找到了一些，但在pyspark中找不到。更新:按照建议，我查看了。然而，当我对每个阶段中</

浏览 0提问于2018-05-05得票数 2

2回答

有没有可能使用pyspark来加速对一个非常大的数组的每一列的回归分析？

、

然后，我使用pyspark创建了一个RDD，并在其上进一步应用了一个已定义的函数。我在创建RDD (即并行化)时遇到了内存问题。sklearn.linear_model import LinearRegressionfrom pysparkjava.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:62

浏览 4提问于2019-06-18得票数 1

1回答

火花删除行

、、、、

为了理解上下文--我正在测试缺失数据的分类模型，每一行都有一个unix时间戳。186行对应于3秒(每秒有62行数据)。但我被这种逻辑束缚住了--我该如何实现这一点呢？(使用PySpark)

浏览 4提问于2016-08-08得票数 1

回答已采纳

1回答

如何使用PySpark执行嵌套的for-each循环

、、

假设有一个大型数据集(>40 of的拼图文件)，其中包含数千个变量的值观察，如三元组(变量、时间戳、值)。广播事件数据，并在过滤变量观测(df_all)时在映射函数中使用它。以某种方式使用RDD.cartasian或RDD.mapParitions (备注: parquet文件由变量部分保存)。工作做得很好，但我想知道如何在最后一步将其汇总/分组

浏览 2提问于2016-08-25得票数 6

回答已采纳

3回答

在KeyVal RDD中为PySpark中的每个键收集第一个N个条目

、、

我有一个具有大量KeyVal条目的RDD。相同的密钥将出现多次，我感兴趣的是为每个键提取第一个N个条目。作为星火的新手，到目前为止，我还不知道该怎么做，所以我会很感激你的帮助。输入可能类似于：例如，每个键的前两个条目所需的最终输出：如果我能够创建一个只保存原始<

浏览 1提问于2019-06-16得票数 1

回答已采纳

1回答

正确使用大型广播变量的提示？

、、、、

--executor-memory 10G --driver-memory 5G --conf spark.driver.maxResultSize=5gdata = list(range(int(10*1e6)))ids = sc.parallelize/lib/spark/python/pyspark/

浏览 2提问于2016-05-26得票数 14

回答已采纳

7回答

如何用Python创建示例单列星火DataFrame？

、、、

我想要创建一个示例单列DataFrame，但是下面的代码不起作用：## ...预期结果：1013

浏览 10提问于2017-12-06得票数 31

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在pyspark中过滤RDD时做两个测试？

相关·内容

如何在pyspark中过滤RDD时做两个测试？

使用pyspark将两个csv文件连接到键值rdd中

修改PySpark中RDD的两个不同列中的数字符号

如何在spark map函数中使用字典中的json文件？

火花RDD -分区总是在RAM中吗？

使用regex基于另一个RDD过滤一个RDD

将过滤的RDD添加到另一个RDD

超长队列的spark任务是如何处理的？

在pyspark中使用foreachRDD和foreach遍历rdd

在UDF中引用另一个数据帧时，如何引用该数据帧？

Spark:删除出现次数少于N次的行

PySpark打印到控制台

过滤器为两个RDD

获取执行者任务在pyspark中的任务id

有没有可能使用pyspark来加速对一个非常大的数组的每一列的回归分析？

火花删除行

如何使用PySpark执行嵌套的for-each循环

在KeyVal RDD中为PySpark中的每个键收集第一个N个条目

正确使用大型广播变量的提示？

如何用Python创建示例单列星火DataFrame？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐