PySpark RDD:将字符串映射到整数，删除无效数据

PySpark RDD是一种用于处理大规模数据集的分布式数据集，它是Spark中的一个核心概念。RDD代表弹性分布式数据集（Resilient Distributed Dataset），它是一个可并行操作的不可变分布式对象集合。

在PySpark中，可以使用RDD来将字符串映射到整数并删除无效数据。下面是一个完善且全面的答案：

RDD概念：RDD是Spark中的一个核心数据结构，它代表一个可并行操作的不可变分布式对象集合。RDD可以分布在集群的多个节点上，并且可以在并行处理中进行转换和操作。
字符串映射到整数：要将字符串映射到整数，可以使用PySpark的map函数。该函数可以将一个RDD中的每个元素应用于给定的函数，并返回一个新的RDD。
删除无效数据：要删除无效数据，可以使用PySpark的filter函数。该函数可以根据给定的条件过滤RDD中的元素，并返回一个新的RDD。

下面是一个示例代码，演示如何使用PySpark RDD将字符串映射到整数并删除无效数据：

# 导入必要的库
from pyspark import SparkContext

# 创建SparkContext对象
sc = SparkContext("local", "PySpark RDD Example")

# 创建一个包含字符串的RDD
data = sc.parallelize(["1", "2", "3", "4", "invalid", "6"])

# 将字符串映射到整数
mapped_data = data.map(lambda x: int(x))

# 删除无效数据
filtered_data = mapped_data.filter(lambda x: x > 0)

# 打印结果
print(filtered_data.collect())

# 关闭SparkContext对象
sc.stop()

在上面的示例中，我们首先创建了一个包含字符串的RDD。然后，使用map函数将每个字符串映射为整数。接下来，使用filter函数过滤掉小于等于0的整数。最后，使用collect函数将RDD中的元素收集到一个列表中，并打印结果。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云PySpark：https://cloud.tencent.com/product/spark
腾讯云大数据计算服务：https://cloud.tencent.com/product/dc
腾讯云云服务器CVM：https://cloud.tencent.com/product/cvm
腾讯云对象存储COS：https://cloud.tencent.com/product/cos
腾讯云人工智能AI：https://cloud.tencent.com/product/ai
腾讯云物联网IoT：https://cloud.tencent.com/product/iot
腾讯云移动开发：https://cloud.tencent.com/product/mad
腾讯云区块链：https://cloud.tencent.com/product/bc
腾讯云元宇宙：https://cloud.tencent.com/product/mu

页面内容是否对你有帮助？

有帮助

没帮助

PySpark RDD:将字符串映射到整数，删除无效数据

、、、、

我在PySpark中有一个名为animalRDD的RDD，它的头被删除了。标题标题为：animal, animalBreed, nickName, numberLegs。中的每个元素都是一个字符串。我想映射RDD，这样腿的数量就会变成一个整数。我知道我可以使用以下代码将其转换为整数： animalRDD.map(lambda x: (x[0], x[1], x[2], int(x[3]))) 但是，数据中有字符串'XXX‘和

浏览 37提问于2020-08-28得票数 0

1回答

字符串中的Pyspark双字符替换避免未映射到pandas或rdd的特定单词

、、、、

我继承了一个修改pyspark dataframe中一些字符串的程序。其中一个步骤涉及从字符串中的一些单词中删除双/三/等字母，以及一个额外的例外列表，即使它们有重复的字母也会保持不变。目前，这是通过将dataframe转换为具有udf的pandas，然后在读回pyspark之前对生成的pandas dataframe中的字符串应用自定义函数来完成的。不幸的是，对需求的更改意味着代码在任何情况下都不能使用pandas udf或映射到

浏览 7提问于2021-03-15得票数 0

回答已采纳

4回答

将RDD中的空字符串替换为空值

、

你好，我想将我的RDD的空字符串转换为0。我已经读了20个文件，它们是这样排列的。,1094,N3EDAA,DFW,BOS,1155,1155,0,12,1207,223,206,190,1562,1617,4,1638,1621,-17,0,0,,,,,, 我想用数字0填充这些空字符串def import_parse_rdd(data): rdd = sc.textFile(data) # remove the headerheade

浏览 76提问于2021-09-09得票数 1

1回答

如何在pyspark中将字符串的RDD映射到Dataframe的列

、

我有一个字符串的RDD，它存储数据帧的列名。我想将这个RDD的每个值映射到它引用的列的计数。File "<stdin>", line 1, in <module>File "&

浏览 7提问于2016-08-16得票数 0

1回答

火花HashPartitioner碰撞机制？

、

也就是说，如果我有非常不正确的数据，其中一个键保存了许多记录，并且我将在内存无法保存的同一个分区中放置许多记录。在这种情况下，HashPartitioner是否有类似于探测的东西将记录分配给新分区，或者没有？如果没有，我是否需要实现一个自定义的分区器来处理倾斜的密钥？非常感谢。

浏览 2提问于2019-10-31得票数 0

2回答

如何在spark中将二进制文件转换为rdd？

、

我正在尝试将seg-Y类型的文件加载到spark中，并将它们传输到rdd中以进行mapreduce操作。但我没能把它们转换成rdd。有谁能提供帮助吗？

浏览 0提问于2015-09-16得票数 2

4回答

如果用户if是字符串而不是连续整数，如何使用mllib.recommendation？

、、

但是，我所拥有的用户数据的格式是以下格式：CD234WZ12345GH456XY98765 ....如果我想使用mllib.recommendation库，根据Rating类的API，用户I必须是整数(也必须是连续的？)

浏览 12提问于2015-01-05得票数 13

回答已采纳

1回答

分区上的星火数据格式withColumn

、、、

dataframe中的列"colA“包含整数值：| colA|| 1|| 1|+-----++----+------++----+------+| 2| b|+----+------+ 我需要创建一个新列"colB“，它将包含"colA”到字符串</em

浏览 0提问于2018-02-05得票数 1

回答已采纳

5回答

更新spark中的dataframe列

、、、、

如何更改数据文件的行x列y中的值？在pandas中，这将是：编辑：合并下面所说的内容，您不能修改现有的数据格式，因为它是不可变的，但是您可以返回一个新的数据格式，并进行所需的修改。如果只想根据条件替换列中的值，如np.wheredf = df.withColumn('new_co

浏览 12提问于2015-03-17得票数 95

回答已采纳

1回答

Tkinter小部件验证问题-再次

、、

关于我已经回答过的问题，我仍然想不出如何解决验证问题，这样它在任何情况下都不会中断。目前，它在很大程度上运行良好，除非您选择了值，然后键入一些输入。有什么想法吗？ from Tkinter import * from tkinter import * def __init__(self):

浏览 0提问于2015-08-24得票数 1

回答已采纳

1回答

RDD中的行对象

、、

我尝试为每个RDD删除标题行，并将每个逗号分隔的行解析为一个row对象，每个列都遵循jupyter notebook单元格中给定的数据类型。请将某些列转换为首选格式。应转换为整数的列：‘年’、‘月’、‘日’、‘日_周’、‘航班编号’。应转换为float数据类型的列：'DEPARTURE_DELAY‘、’into _DELAY‘、'ELAPSED_TIME’、'AIR_TIME‘、'DISTANCE’、'TAXI_IN‘和'TAXI_OUT而其余的

浏览 19提问于2021-09-09得票数 2

回答已采纳

1回答

pyspark线性回归模型给出错误此列名必须是数字类型，但实际上是字符串类型

、、

true)IMP:注意，我尝试使用DenseVector数组中的其他变量，但它抛出了一个很长的错误，比如float()的无效文字rdd = rdd.map(converter) /usr/local/spark/python/pyspark/sql/session.pyc in _inferSchema(self,rdd, samplingRa

浏览 3提问于2018-03-08得票数 1

1回答

不同的SQL语句和pyspark的不同方法之间的不同输出

、、、、

我想做一些正则表达式的清理(删除标点符号、空格、数字、重音和一些问题)，然后应用一些近似的字符串匹配算法，比如TF或BM25，但这是另一个问题。这是我的前五行(包括标题)。但是使用下面的代码，我将每个字符串拆分为一个由四个元素组成的列表。my_rdd_splitted = my_rdd.map(lambda x: x.split(',')).cache() [['cuit_impor

浏览 3提问于2021-05-31得票数 0

1回答

在pySpark中，如何有效地替换字符串数据帧中多个正则表达式模式的所有实例？

、、、

我在Hadoop中有一个表，其中包含70亿个字符串，这些字符串本身可以包含任何内容。我需要从包含字符串的列中删除每个名称。一个示例字符串是“John to to the park”，我需要将“John”从其中删除，理想情况下只需替换为“name”即可。我已经在数据库中尝试过了，但是由于不能更新列或迭代变量，所以使用Python和PySpark似乎是最好的选择，特别是考虑到计算的数量(20k名称* 7bil输入字符串) #nameLis

浏览 23提问于2019-05-30得票数 0

7回答

Pyspark:解析一列json字符串

、、、

我有一个由一个名为json的列组成的pyspark，其中每一行都是一个json的unicode字符串。我想解析每一行并返回一个新的dataframe，其中每一行都是解析的json。([Row(json=jstr1),Row(json=jstr2),Row(json=jstr3)])(df .rdd时，模式信息会丢失，所以我也尝试手动输入模式信息： schema = StructType([StructField('json&

浏览 25提问于2016-12-12得票数 56

回答已采纳

1回答

模糊匹配火花放电数据字符串中的一个单词

、、、、

我有一些数据，其中列“X”包含字符串。我正在编写一个函数，其中传递一个search_word，并且在列'X‘字符串中不包含子字符串search_word的所有行都被过滤掉。我已经将数据加载到pyspark中，并使用NLTK和fuzzywuzzy库编写了一个函数，如果字符串包含search_word，则返回True或False。我的问题是，我不能正确地将函数映射到dataframe。我是不是不正确地处理这个问

浏览 8提问于2018-01-03得票数 6

4回答

Apache Spark的主键

、、、

我有一个与Apache Spark和PostgreSQL的JDBC连接，我想将一些数据插入到我的数据库中。当我使用append模式时，我需要为每个DataFrame.Row指定id。

浏览 2提问于2015-10-13得票数 33

回答已采纳

1回答

pyspark后缀替换避免某些词而不映射到熊猫或rdd

、、、、

我继承了一个程序，它修改了中的一些字符串。其中一个步骤涉及从字符串中的一些单词中移除后缀，另外还有一个异常列表，即使它们有后缀，也会单独保留。目前，这是通过使用udf将dataframe转换成熊猫，然后在读取回pyspark之前，将自定义函数应用到生成的熊猫数据文件中的字符串中。不幸的是，对需求的更改意味着代码在任何情况下都不能使用熊猫udf或映射到rdd。我需要在火星雨中直接执行同样的功能。下面是一个MWE目前的实现，之后的火花放电数据</e

浏览 2提问于2021-03-13得票数 0

回答已采纳

3回答

优化火花放电中的行访问和转换

、、、、

我有一个大型数据集(5GB)，其格式是S3桶中的jason。我需要转换数据的模式，并使用ETL脚本将转换后的数据写回S3。#df is the pyspark dataframeprint(columns) s3 = boto3.resource('s3&#x

浏览 3提问于2020-05-30得票数 1

回答已采纳

1回答

删除PySpark数据帧中具有无效多边形值的行？

、、、、

我们在数据帧上使用PySpark函数，这会引发错误。错误很可能是由于数据帧中的错误行造成的。true)|-- polygon: geometry (nullable = false)df.show() java.lang.IllegalArgumentException: LinearRing点不形成闭行字符串 为了精确定位这些行，我们希望迭

浏览 14提问于2022-10-18得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

PySpark RDD:将字符串映射到整数，删除无效数据

相关·内容

PySpark RDD:将字符串映射到整数，删除无效数据

字符串中的Pyspark双字符替换避免未映射到pandas或rdd的特定单词

将RDD中的空字符串替换为空值

如何在pyspark中将字符串的RDD映射到Dataframe的列

火花HashPartitioner碰撞机制？

如何在spark中将二进制文件转换为rdd？

如果用户if是字符串而不是连续整数，如何使用mllib.recommendation？

分区上的星火数据格式withColumn

更新spark中的dataframe列

Tkinter小部件验证问题-再次

RDD中的行对象

pyspark线性回归模型给出错误此列名必须是数字类型，但实际上是字符串类型

不同的SQL语句和pyspark的不同方法之间的不同输出

在pySpark中，如何有效地替换字符串数据帧中多个正则表达式模式的所有实例？

Pyspark:解析一列json字符串

模糊匹配火花放电数据字符串中的一个单词

Apache Spark的主键

pyspark后缀替换避免某些词而不映射到熊猫或rdd

优化火花放电中的行访问和转换

删除PySpark数据帧中具有无效多边形值的行？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐