使用pyspark将两个csv文件连接到键值rdd中_如何将PySpark中的数据帧/RDD作为CSV/Parquet文件快速保存到磁盘？_使用SCALA删除DataFrame中的空格。(我已经将CSV文件加载到RDD中，然后尝试删除其中的空格 - 腾讯云开发者社区

python、csv、apache-spark、pyspark

我正在尝试使用pyspark将两个没有共同之处(没有键是公共的)的csv文件组合成一个键值成对的rdd 让我们假设A.csv有 ac 而B.csv有 13 在pyspark中有没有一个选项可以通过连接这两个来获得一个rdd，就像这样 a:1c:3 当然，两个csv文件中的

浏览 13提问于2019-12-17得票数 0

1回答

PySpark:将一对RDD转换回常规RDD

pyspark、rdd、keyvaluepair

有任何方法可以将一对RDD转换回常规RDD吗？然后创建一对rdd (即键是"，“之前的字符串，而值是"，”之后的字符串) pairRDD = rdd.map(lambda x : (x.split(",")[0],

浏览 1提问于2015-10-06得票数 1

回答已采纳

1回答

如何在Pyspark的每个元素上使用Pyspark的csv读取器？(没有“来自广播变量的引用SparkContext”)

python-3.x、pyspark、apache-spark-sql、rdd

我想使用Pyspark在数百个csv文件中读取，创建一个数据文件，即(粗略地)连接所有csv。因为每个csv都可以安装在内存中，但一次不超过一到两个，这似乎是一个很好的契合。我的策略不起作用，而且我认为这是因为我想在映射函数的内核函数中创建一个Pyspark dataframe，从而导致一个错误： # initiate spark session and other variabl

浏览 6提问于2022-10-03得票数 0

2回答

将数据保存到HDFS的格式是什么？

hadoop、apache-spark、hdfs、apache-spark-sql

创建DataFrame后，我可以将其保存为avro、csv或拼板格式。在dataframe或rdd中是否有其他格式可用于在Hadoop中保存数据？

浏览 2提问于2017-12-21得票数 1

2回答

将KVP中的RDD值转换为PySpark中的整数

python、type-conversion、integer、pyspark、rdd

我正在尝试将我的column2键值对中的RDD值从字符串转换为整数，以便能够将它们相加并计算平均值。我试图让第2列在映射阶段自动显示为整数，但收到错误消息，“TypeError：'type‘对象没有’getitem‘属性” textfile = sc.textFile("hdfs://...csv")test = textfile.map(lambda x: (x.split(",")[1], x.split(",")(int[2])

浏览 0提问于2017-12-02得票数 0

1回答

ArrayWritable的Pyspark用法

hadoop、apache-spark、pyspark

我尝试在pyspark上保存一个键值RDD。RDD的每个单元都有这样的类型，用伪代码编写：我想把它保存在hadoop文件系统上。为此，我将列表转换为元组并调用.saveAsSequenceFile。<init>()无法使用sc.sequenceFile重新加载rdd。下面是一个尝试保存(int,int)的RDD的最小示例。= sc.paralleli

浏览 2提问于2015-12-01得票数 2

3回答

使用pyspark处理csv文件中字段中的逗号

csv、apache-spark、pyspark

我有一个在列值中包含逗号的csv数据文件。例如,AAA_A,BBB,B,CCC_C 这里的值是"AAA_A"，"BBB，B"，"CCC_C“。在PySpark中用逗号拆分行后如何获得正确的值？

浏览 0提问于2016-02-23得票数 5

1回答

如何从任何数据库表创建PySpark RDD？

pyspark

由于我是星火社区的新手，任何人都能解释如何从数据库表创建PySpark RDD吗？我可以使用PySpark方法的textFile()方法从CSV文件创建SparkContext RDD。但我不知道从数据库表中创建PySpark RDD。

浏览 0提问于2018-02-10得票数 1

回答已采纳

1回答

如何像scala .drop中那样删除rdd列

python、scala、csv、apache-spark、pyspark

文件videos.csv如下所示099acca-8888-48ca,Action,Comedy 在Scala中，Scala可以使用.drop(1)删除RDD列1，以便对所有行删除rdd列1，例如482cal-2792-48da和099acca-8888-48ca。我想知道如何在PySpark rdd中PySpark中这样做，如下所示

浏览 2提问于2016-12-29得票数 3

9回答

把CSV带到Spark dataframe

apache-spark、pyspark

我在Spark上使用python，并希望将csv转换为dataframe。 "This package can be added to Spark using the --jars command line option.example, to include it when starting the spark shell: $ bin/spark-shell --packages com

浏览 6提问于2015-04-29得票数 20

回答已采纳

2回答

Hadoop / Spark读取许多CSV文件

python、csv、hadoop、apache-spark、hdfs

每个文件大约有100 is，有大约1,000,000行。每个目录中的文件数(通常在100个左右)不同，文件名也不一样。总的目标是实际从级别-1_var/目录中的每个文件中获取第一行和最后一行。将每个级别-1_var的结果组合起来，然后返回并为每个级别-1_var/在其他hdfs-path/level-1-var/中写出一组新的文件。我是新来的Hadoop/火花和<e

浏览 9提问于2016-10-26得票数 1

回答已采纳

4回答

将csv文件内容导入pyspark数据格式

pyspark

我如何将一个.csv文件导入？我甚至尝试在Pandas中读取csv文件，然后使用createDataFrame将其转换为createDataFrame，但它仍然显示出一些错误。有人能指引我渡过难关吗？另外，请告诉我如何导入xlsx文件？我试图将csv内容导入熊猫数据格式，然后将其转换为spark数据帧，但它显示了错误： "Py4JJavaError" An error occurred while

浏览 0提问于2016-08-01得票数 14

2回答

文本文件中的Pyspark对RDD

apache-spark、pyspark、spark-dataframe、rdd

我有一个本地文本文件kv_pair.log格式，例如键值对是逗号分隔的，记录以新行开始和终止："A"="oof","B"="rab","C"="zab" "A"="aaa","B"="bbb&

浏览 2提问于2017-08-01得票数 0

1回答

PySpark DataFrame写入空(零字节)文件

python、apache-spark、pyspark

我正在使用Spark3.1.1版本的PySpark DataFrame API进行本地设置。在读取数据、执行一些转换等之后，我将DataFrame保存到磁盘。输出目录与part-0000*文件一起创建，输出目录中也有_SUCCESS文件。但是，我的part-0000*总是空的，即零字节。from pyspark.sql import SparkSession fr

浏览 8提问于2022-05-11得票数 1

1回答

使用PySpark从Blob存储容器加载CSV文件

csv、apache-spark、pyspark、azure-blob-storage

我无法使用Jupyter Notebook中的PySpark将CSV文件从Azure Blob Storage直接加载到RDD中。我知道我也可以使用Pandas将数据加载到Notebook中，但之后我需要将Panda DF转换为RDD。我理想的解决方案应该是这样的，但是这个特定的代码给我的错误是它不能推断出CSV的模式。#Load Data source = &

浏览 21提问于2019-04-28得票数 0

4回答

如何在Spark python中将生成的RDD写入csv文件

python、csv、apache-spark、pyspark、file-writing

我有一个最终的RDD labelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions)。我想要创建一个CSV文件，其中一列用于labels (上面输出中的元组的第一部分)，另一列用于predictions(元组输出的第二部分)。但我不知道如何使用Python在Spark中写入CSV文件。如何使用上述输出创建CSV文件

浏览 194提问于2015-08-09得票数 26

回答已采纳

1回答

如何将PySpark RDD转换为具有未知列的Dataframe？

python、dataframe、pyspark、rdd

我是通过从RDD中的文本文件加载数据来创建PySpark的。现在，我想将这个RDD转换成一个dataframe，但是我不知道RDD中有多少列和列。我正在尝试使用createDataFrame()和语法，因为它是sqlDataFrame = sqlContext.createDataFrame(rdd, schema)。现在，由于我不知道列是什么，所以如何将rdd转换为dataframe？注释1:我不知道列的原因是因为

浏览 9提问于2017-04-07得票数 2

1回答

如何将<class‘class’_. How .

python、apache-spark、machine-learning、pyspark、k-means

我对Spark完全陌生，目前我正在尝试使用Python编写一段简单的代码，对一组数据执行KMeans操作。pyspark中，当它运行model = kmeans.fit(vdf)时，我得到了以下错误：在org.apache.spark.api.python.PythonRunner/lib/pyspark.zip/pyspark/worker.py"，第106行中，在proc

浏览 2提问于2017-03-02得票数 5

回答已采纳

1回答

如何使用spark (python)读取zip文件中CSV文件的内容

python、hadoop、apache-spark、zip、pyspark

我有多个压缩文件，包含两种类型的文件(A.csv和B.csv)/data/feb.zip -->包含A.csv & B.csv 我想使用pyspark读取所有压缩文件中的所有A.csv文件的内容。textFile = sc.

浏览 1提问于2016-05-06得票数 11

1回答

熊猫到PySpark会产生OOM错误而不是溢出到磁盘上

python-2.7、apache-spark、pyspark、rdd

我有一个用例，在这个用例中，我想迭代地将数据加载到Pandas中，使用外部函数(即xgboost，在示例代码中没有显示)进行一些处理，然后将结果推到单个PySpark对象(RDD或DF)中。在将数据存储为RDD或Dataframe时，我尝试让PySpark溢出到磁盘，同样，源是Pandas DataFrame。似乎什么都没有用，我一直在破坏Java驱动程序，无法加载数据。或者，我尝

浏览 1提问于2017-09-18得票数 0

点击加载更多