在pyspark RDD中保存删除的重复项

文章/答案/技术大牛

发布

1回答

按行删除星火RDD中的重复

、、、

我正在使用做一些工作，并有一个包含在每一行中的重复事务示例的rdd。这将导致模型训练函数因这些重复项而引发错误。我对Spark相当陌生，我想知道如何删除rdd行中的重复项。例如： from pyspark.mllib.fpm import FPGrowth data = [["a&qu

浏览 2提问于2016-09-06得票数 0

回答已采纳

1回答

、

从这里，Removing duplicates from rows based on specific columns in an RDD/Spark DataFrame，我们学习了如何根据一些特定的变量删除重复的观测值如果我想以RDD的形式保存这些重复的观测值，我该怎么做？我猜如果rdd.substract()包含数十亿个观察值，那么RDD的效率可能会

浏览 18提问于2019-09-18得票数 0

1回答

我有一个pyspark RDD，它有大约200万个元素。我不能一次收集它们，因为它会导致OutOfMemoryError异常。如何批量采集？这是一个潜在的解决方案，但我怀疑还有更好的方法:收集一个批处理(使用take、https://spark.apache.org/docs/3.1.2/api/python/reference/api/pyspark.RDD.take.html#pysp

浏览 29提问于2021-10-12得票数 0

回答已采纳

3回答

如何从RDD[PYSPARK]中删除重复的值

、、

我有以下表格作为RDD：1 y1 y1 n2 n我想从Value中删除所有的重复项。输出应如下所示：1 y2 y在pyspark中工作时，输出应该是如下所示的键值对列表： [(u'1',u'n'),(u'2&#x

浏览 4提问于2014-09-18得票数 14

回答已采纳

1回答

从星火RDDPair值中删除重复项

、、

我是Python和Spark的新手。我有一对包含(key，List)的RDD，但是有些值是重复的。RDD是表单(zipCode，streets)，我想要一对不包含重复项的RDD。streetsGroupedByZipCode = zipCodeStreetsPairTuple.groupByKey() [(123456, <pyspark.re

浏览 2提问于2015-06-16得票数 0

回答已采纳

2回答

将数据保存到HDFS的格式是什么？

、、、

创建DataFrame后，我可以将其保存为avro、csv或拼板格式。在dataframe或rdd中是否有其他格式可用于在Hadoop中保存数据？

浏览 2提问于2017-12-21得票数 1

1回答

如何在Spark中从另一个RDD的前n项生成RDD？

在pyspark中给出一个RDD，我想创建一个新的RDD，它只包含它的前n项(副本)，如下所示： n=100 rdd2 = rdd1.limit(n) 除了RDD没有像DataFrame那样的方法limit注意，我不想收集结果，结果必须仍然是RDD，因此我不能使用RDD.take()。我使用的是pyspark

浏览 19提问于2019-10-13得票数 0

回答已采纳

1回答

ArrayWritable的Pyspark用法

、、

我尝试在pyspark上保存一个键值RDD。RDD的每个单元都有这样的类型，用伪代码编写：我想把它保存在hadoop文件系统上。<init>()无法使用sc.sequenceFile重新加载rdd。下面是一个尝试保存(int,int)的RDD的最小示例。import py

浏览 2提问于2015-12-01得票数 2

1回答

如何像scala .drop中那样删除rdd列

、、、、

文件videos.csv如下所示099acca-8888-48ca,Action,Comedy 在Scala中，Scala可以使用.drop(1)删除RDD列1，以便对所有行删除rdd列1，例如482cal-2792-48da和099acca-8888-48ca。我想知道如何在PySpark rdd中PySpark中这样做，如下所示

浏览 2提问于2016-12-29得票数 3

1回答

将一个简单的字符串作为文本文件存储在蔚蓝突触中(到数据湖gen2)

、、、

我试图在datalakeGen2中将一个简单的字符串存储为文本文件，编写在Synapse记事本上的python代码。但它似乎并不是直接的。我试图将文本转换为rdd，然后存储：from pyspark import SparkContextst

浏览 2提问于2021-06-29得票数 0

回答已采纳

2回答

在Spark RDD；python中查找值的所有排列

、、、、

我有一个spark RDD (myData)，它已经被映射为一个列表。myData.collect()的输出结果如下：我可以在myData上执行什么操作来映射到或创建一个包含xyz的所有排列列表的新RDD？例如，newData.collect()将输出： ['xyz', 'xzy', 'zxy', 'zyx', &#

浏览 1提问于2017-04-30得票数 0

1回答

PicklingError:未能序列化对象:同时将数据插入到dynamoDB

、、

我试图在dynamoDB中插入200万项(WCU = 40,000)。但是当我使用星图时，它是抛出的错误。/pyspark/rdd.py", line 205, in __repr__ File "/usr/lib/spark/python/lib/pyspark.zip/pyspar

浏览 6提问于2021-02-27得票数 0

1回答

从PySpark* RDD中删除重复的元组对*

、、、

我得到了一个rdd。示例: test = sc.parallelize((1,0)，(2,0)，(3,0)) print(result1.collect())<class 'pyspark.rdd.RDD'> [((1, 0), (), ((2, 0

浏览 7提问于2021-08-31得票数 2

回答已采纳

1回答

需要RDD的实例，但返回了类“pyspark.rdd.PipelinedRDD”

、、、

嗨，我在Notebook中有这段代码，并尝试编写python spark代码： spark.sql("SELECTdf,spark):return result.rdd.sample(False, 0.1).map(lambda row : (row.temper

浏览 0提问于2017-06-04得票数 5

回答已采纳

3回答

从PySpark中的数据中删除重复项

、、、

我在本地使用pyflem1.4中的dataframes，并且在让dropDuplicates方法工作时遇到了问题。它不断地返回错误： rd

浏览 2提问于2015-06-26得票数 25

回答已采纳

2回答

火花RDD* -分区总是在RAM中吗？*

、、、、

我们都知道斯派克在内存中做计算。我只是对下面的内容感到好奇。如果我的数据集(文件)大小超过可用RAM大小，数据将存储在哪里？

浏览 5提问于2016-11-22得票数 21

回答已采纳

1回答

如何将深度学习模型数据传递给Spark中的map函数

、、、

我有一个非常简单的用例，我使用sc.binaryFiles方法从s3读取大量图像作为rdd。一旦创建了RDD，我将把rdd中的内容传递给vgg16特征提取器函数。因此，在这里，我需要模型数据来进行特征提取，所以我将模型数据放入广播变量中，然后访问每个map函数中的值。[1])在write_to_s3方法中，我获取了RDD，提取了要保

浏览 0提问于2018-11-07得票数 1

2回答

从Spark RDD中删除重复的

、、、

我在我的文件中收集了重复的记录作为字典列表。下面是我的sampleRDD变量内容，它是一个pyspark.rdd.RDD对象：,{"A": 111, "B": 222, "C":

浏览 1提问于2016-01-18得票数 0

1回答

如何将<class‘class’_. How .

、、、、

/lib/pyspark.zip/pyspark/worker.py"，第106行中，在process serializer.dump_stream(split_index迭代器)中，在文件"/usr/hdp/2.5.0.0-1245/spark/python/lib/pyspark.zip/pyspark

浏览 2提问于2017-03-02得票数 5

回答已采纳

1回答

使用lambda表达式理解map()函数的概念

、、

rdd.map(lambda x : (x[1],0))

浏览 2提问于2022-04-19得票数 -2

回答已采纳

点击加载更多

按行删除星火RDD中的重复