如何在rdd spark scala中过滤split()之后？

在RDD Spark Scala中过滤split()之后，可以使用filter()函数来实现。

首先，使用split()函数将RDD中的字符串按照指定的分隔符进行拆分，得到一个包含拆分后字符串的数组。例如，假设有一个RDD名为rdd，其中包含了一些逗号分隔的字符串，可以使用以下代码进行拆分：

val splitRDD = rdd.map(_.split(","))

接下来，可以使用filter()函数对拆分后的RDD进行过滤操作。filter()函数接受一个函数作为参数，该函数返回一个布尔值，用于判断是否保留RDD中的元素。例如，假设要过滤掉长度小于3的字符串，可以使用以下代码：

val filteredRDD = splitRDD.filter(_.length >= 3)

在上述代码中，使用了一个匿名函数_.length >= 3作为filter()函数的参数，该函数判断字符串的长度是否大于等于3。

最后，可以对过滤后的RDD进行进一步的操作，例如进行计算、转换等。

需要注意的是，RDD是不可变的，因此对RDD的操作都会生成一个新的RDD，原始的RDD不会被修改。

关于RDD的更多操作和函数，可以参考腾讯云的Apache Spark产品文档：Apache Spark - RDD。

请注意，本回答中没有提及亚马逊AWS、Azure、阿里云、华为云、天翼云、GoDaddy、Namecheap、Google等流行的云计算品牌商，如有需要，可以自行参考相关文档。

如何在rdd spark scala中过滤split()之后？

、、

val rdd = sc.textFile("/path").map(x=>(x.split(",")(0).toInt,x.split(",")(1),x.split(",")(2))) 在此之后，如何过滤

浏览 20提问于2020-12-17得票数 0

回答已采纳

1回答

ValueError:需要2个以上的值才能解包

、

我试着用下面的代码过滤它，但是我得到了错误。我如何过滤掉这些？<init>(PythonRDD.scala:176)at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:277) at org.ap

浏览 2提问于2015-12-23得票数 0

2回答

如何将两个RDD[String]的索引结合起来？

、

我可以过滤的时间和文字的推特，但我正在挣扎后，结合起来，如何执行。scala> val split_time = split_date.map(line => line.split(":")).map(word =>split_time: org.apache.spark.rdd.RDD] = Array(17, 17, 17, 17, 17, 17, 17, 17, 17

浏览 0提问于2017-12-08得票数 1

回答已采纳

1回答

任务不可序列化异常

、

val testData : RDD[(String, String)] = sc.textFile("testcases/NQIntervalsTestData").map { line => (line.split(SparkContext.scala:1623) at test.<

浏览 1提问于2015-06-17得票数 0

1回答

在spark项目中使用全局变量时出错

、、、

def returnIfTrue(row): return rowFile "/usr/local/src/spark/python/lib/pyspark.zip/pyspark/seri

浏览 0提问于2016-04-06得票数 0

2回答

RDD过滤器、Spark2.1和Python3.5中的映射操作出错

、、、、

我正在尝试运行中给出的Spark / Python的Logistic回归示例，并且已经成功地使用了Spark1.6和Python2.7。现在我必须将它移到Spark2.1和Python3.5( 3.6是不兼容的)，我正在使用Ubuntu16.04中的木星笔记本# Evaluate the model on training(RDD.scala:323) at org.apache.spark.rdd</em

浏览 2提问于2017-04-12得票数 1

回答已采纳

1回答

Spark streaming嵌套执行序列化问题

、、、

我正在尝试连接spark streaming应用程序中的DB2数据库和数据库查询执行语句，这会导致"org.apache.spark.SparkException:任务不可序列化“问题。请给我建议。) row.split(",")(1)-> (row.split(ClosureCleaner.

浏览 1提问于2018-03-29得票数 0

2回答

Scala映射过滤方法

、、、

我是Scala和Spark的新手。我正在尝试删除文本文件中的重复行。import org.apache.spark.rdd.RDD val keys = input.flatMap(line => line.split("

浏览 0提问于2017-10-14得票数 0

1回答

来自RDD的火花过滤广播vars

我正在学习广播vars，并尝试从RDD中过滤这些内容。这对我来说是不可能的。Sessionremove.txt脚本scala> val contentRDD = content.flatMap(x => x.<em

浏览 2提问于2017-08-09得票数 1

回答已采纳

1回答

在火花流中遇到内存问题的泡菜对象(模型数据)

、、

在满容量的情况下，它以70%的速度运行，如所见另一个想法是，模型可能被调用多少次，而不是垃圾收集。怎么可能决定只捡一次呢？text.lower() text = ' '.join(text.split()) text = ' '.join([word for word in text.split()

浏览 0提问于2018-10-26得票数 0

回答已采纳

1回答

星火Rdd中的火花卡桑德拉台过滤器

、、、、

我必须过滤星星之火中的Cassandra表，在通过spark从表中获取数据之后，在返回的rdd上应用过滤器函数，我们不想使用cassandra中的where子句来过滤，但是这需要在过滤器列上自定义sasi由于返回的rdd是com.datastax.spark.connector.rdd.CassandraTableScanRDD[com.datastax.spark</em

浏览 1提问于2020-08-25得票数 1

1回答

PySpark在使用boto3读取大文件时抛出java.io.EOFException

、、、

) at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:300) at org.apache.spark.rdd.RDD.iterator(RDD.scala<

浏览 12提问于2015-12-04得票数 2

1回答

如何像scala* .drop中那样删除rdd列*

、、、、

文件videos.csv如下所示099acca-8888-48ca,Action,Comedy

浏览 2提问于2016-12-29得票数 3

1回答

如何处理星火rdd中的数据中是否出现分隔符

、、

如何处理在使用spark加载文件时，数据中是否存在我的分隔符。scala> val rdd = sc.textFile("file:///test/Sample_dep_20.txt",2)102|Suresh|DEP

浏览 0提问于2020-08-14得票数 0

回答已采纳

1回答

使用sc.union时火花堆栈溢出错误

、

这是我的代码： val parts = line.split(",&q

浏览 2提问于2016-06-16得票数 2

回答已采纳

1回答

火花放电rdd分裂问题

、、

我试图从rdd中筛选值为"01-10-2019“的20/02/05 19:11:43 ERROR

浏览 5提问于2020-02-08得票数 1

回答已采纳

1回答

星星之火中的case类实现

、、

我试图在intellij idea中实现case类，我得到了以下错误。你能帮我解决这个问题吗？:162) at org.apache.spark.rdd.RDD$anonfun$map$1(RDD.scala:371) at org.apache.spark.rdd.

浏览 2提问于2019-12-17得票数 1

2回答

只在Spark中选择部分输入

、

:247) at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$24.apply(RDD.scala:836) at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$24.apply(RDD.scala：在org.apac

浏览 2提问于2020-09-05得票数 0

1回答

Apache-Spark并行处理分离的csv文件

、、

我正在尝试使用Apache-Spark来并行处理目录中分离的csv文件。具体地说，我希望每个从节点将每个csv文件中第一列的所有编号相加，并返回计算结果。at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:277) at org.apache.spark.rdd.RDD.iterator(RDD.scala</e

浏览 1提问于2015-07-15得票数 1

1回答

IndexError:超出范围的字符串索引

、

],x[14])))File "/opt/spark/python/pyspark/rdd.py"pyspark/rdd.py", line 2330, in pipeline_func return f

浏览 1提问于2015-08-27得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在rdd spark scala中过滤split()之后？

相关·内容

如何在rdd spark scala中过滤split()之后？

ValueError:需要2个以上的值才能解包

如何将两个RDD[String]的索引结合起来？

任务不可序列化异常

在spark项目中使用全局变量时出错

RDD过滤器、Spark2.1和Python3.5中的映射操作出错

Spark streaming嵌套执行序列化问题

Scala映射过滤方法

来自RDD的火花过滤广播vars

在火花流中遇到内存问题的泡菜对象(模型数据)

星火Rdd中的火花卡桑德拉台过滤器

PySpark在使用boto3读取大文件时抛出java.io.EOFException

如何像scala* .drop中那样删除rdd列*

如何处理星火rdd中的数据中是否出现分隔符

使用sc.union时火花堆栈溢出错误

火花放电rdd分裂问题

星星之火中的case类实现

只在Spark中选择部分输入

Apache-Spark并行处理分离的csv文件

IndexError:超出范围的字符串索引

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐