迭代pyspark dataframe列

文章/答案/技术大牛

发布

2回答

从PySpark DataFrame列中删除元素

我知道PySpark DataFrames是不可变的，所以我想创建一个新列，该列是根据应用到PySpark DataFrame的现有列的转换生成的。我的数据太大了，无法使用collect()。该列是唯一int列表(在给定列表中不重复int)，例如：[1,2][2,3]删除元素1，结果如下：

浏览 9提问于2017-01-12得票数 1

回答已采纳

2回答

、、、

我有以下pyspark.dataframe21 DC john 30-50K但这会产生以下错误：类似地，这就是我当前迭代列以获得最小值的方法report1.columns.values(): if hasattr(column, '

浏览 3提问于2017-02-18得票数 9

回答已采纳

1回答

迭代两个数据，比较和更改熊猫或火星雨中的值。

、、

如果比较成功，我需要比较两个dataframe之间的几个列，并更改第一个dataframe中一个列的值。Dataframe 1：Pants Germany Red 0Article Origin Colour Dress Ita

浏览 3提问于2019-09-23得票数 0

回答已采纳

1回答

如何迭代大型Pyspark Dataframe中列的不同值？.distinct().collect()引发大型任务警告

、

我正在尝试迭代一个大型Pyspark Dataframe列中的所有不同值。当我尝试使用.distinct().collect()执行此操作时，即使只有两个不同的值，它也会发出“任务太大”警告。下面是一些示例代码： data.sel

浏览 1提问于2020-01-14得票数 1

1回答

PySpark -迭代数据框的行

我需要迭代pyspark.sql.dataframe.DataFrame.DataFrame的行。我以前在pandas中用iterrows()函数做过，但我需要在不使用pandas的情况下为pyspark找到类似的东西。如果我执行for row in myDF:，它将迭代columns.DataFrame 谢谢

浏览 1提问于2018-07-03得票数 1

回答已采纳

1回答

当我迭代地将500多个列添加到我的pyspark中时，我遇到了堆栈溢出错误。所以我包括了检查点。检查站帮不上忙。因此，我创建了下面的玩具应用程序来测试我的检查点是否正常工作。在这个例子中，我所做的就是一次又一次地复制原始列来迭代地创建列。我坚持，检查点和计数每10个迭代。我注意到我的dataframe.rdd.isCheckpointed()总是返回False。我在用哥库德的dataprocfrom pyspark

浏览 1提问于2017-11-16得票数 1

回答已采纳

1回答

PySpark: AttributeError：“DataFrame”对象没有属性“forEach”

、、

我试图从hdfs中获取数据，并对每个数据进行迭代，以便对列_c1进行分析。import findsparkimport pysparksc= SparkContext()sql = SQLContext(sc) df = sql.read.csv('

浏览 3提问于2022-04-07得票数 0

回答已采纳

1回答

PySpark基于列的vlaue添加月份到日期字段

、、、、

我有一个带有日期列和整数列的dataframe，我想根据整数列将月份添加到date列中。我尝试了以下方法，但是我得到了一个错误：withColumn('future', f.add_months('cohort', col('period'))) TypeError:

浏览 2提问于2022-02-08得票数 0

回答已采纳

1回答

在pyspark的dataframe中迭代列，而不为单个列生成不同的数据。

、、

我们如何在dataframe中的列中迭代以单独对同一数据same中的部分或所有列执行计算，而不为单个列创建不同的数据same(类似于map在rdd中遍历行，并在行上执行计算而不为每一行创建不同的rddl = list of column namesdef plusone(df_column): return (df_column + 1)getattribute(df,l[x]))) if x ==0 els

浏览 3提问于2017-03-10得票数 1

2回答

使用pySpark迭代每一行数据帧

、、、、

我需要使用dataframe来迭代pySpark，就像我们可以使用for循环迭代一组值一样。下面是我写的代码。这段代码的问题是 from pyspark.sql.functions import * from pyspark.sql import HiveCont

浏览 2提问于2017-01-30得票数 3

1回答

从多个S3存储桶导入pyspark* dataframe，其中有一列指示条目来自哪个存储桶*

、、

这些存储桶中的每一个都存储我正在读取到pyspark dataframe中的拼图文件。从每个存储桶生成的pyspark dataframe具有完全相同的模式。我想要做的是迭代这些存储桶，并将所有这些拼图文件存储到一个单独的pyspark dataframe中，该数据框有一个date列，表示dataframe中的每个条目实际来自哪个存储桶。因为单独导入每个存储桶时生成的数据帧的模式是多层的(即每一行都包含结构数组的结构等)，所以我认为将

浏览 13提问于2019-12-16得票数 0

回答已采纳

1回答

从另一个DataFrame向Pyspark* DataFrame添加列*

、、

两个Pyspark Dataframe都从csv文件中读取。如何在df_e中创建一个名为" amount“的新列，它从df_e中引用每条记录的名称和年值，并从df_p中获取相应的金额？使用Pyspark。编辑：下面是我读取文件的方式： from pyspark import SparkContext, SparkConf from pyspark.sql import SparkSession对于熊猫，我会通过迭代DataFrame<

浏览 14提问于2020-12-05得票数 0

回答已采纳

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

、、

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame # like column.map(lambda x: __valid_date(x))我所拥有的，

浏览 4提问于2021-11-19得票数 0

回答已采纳

1回答

修改PySpark* DataFrame的Pandas代码*

、、

我想修改它以在PySpark中工作，但不知道如何继续。问题是我不能迭代PySpark中的一个列，并且我已经尝试将它变成一个函数，但没有成功。上下文: DataFrame有一个名为City的列，它只是作为字符串的城市名称 cities = [i.City for i in df.select('City').distinct().collect如何为PySpark处理此问题？

浏览 2提问于2016-12-12得票数 0

回答已采纳

1回答

从星星之火数据中的列表中提取值，而不转换为熊猫

、、

我非常绿色的火花，所以我把它转换成一个熊猫DataFrame，然后使用地图功能，我提取所需的元素。问题是，数据是巨大的，因此这种方法是不可扩展的。让我花时间的是toPandas()命令。

浏览 5提问于2021-12-09得票数 1

回答已采纳

2回答

替换星火DataFrame中的列值

、、

请您帮助我替换dataframes spark中的列值： ["2", "xxx", "company 1"],company 44", "company 2"], ["5", &q

浏览 1提问于2022-03-01得票数 0

回答已采纳

1回答

pyspark.pandas API:构造共生矩阵，.dot()不支持数据作为输入。

、、、

我试图使用pyspark.pandas API在数据库上构造数据的共生矩阵。该代码在熊猫中运行良好，但在使用pyspark.pandas时出现了错误。coocc = psdf.T.dot(psdf)我得到了这个错误我查过医生了。pyspark.pandas.DataFrame.dot() 以串联作为输入。我尝试使用psdf.squeeze()将dataframe转换为

浏览 8提问于2022-10-14得票数 0

回答已采纳

1回答

在PySpark* DataFrames中，为什么setitem没有完全实现？*

、、、

在PySpark中，我们不能使用传统的熊猫或R风格的符号来根据DataFrame中的旧列来制作新的列。例如，假设我试图连接两列：df['newcol'] = F.concat(df['col_1'], df['col_2']) 结果：TypeError: 'DataFrame' object does not suppor

浏览 1提问于2016-07-28得票数 1

回答已采纳

5回答

DataFrame对象没有属性“col”

在“火花:最终指南”中，它说： df.col("count")df = spark.read.for

浏览 2提问于2018-08-12得票数 9

1回答

删除PySpark数据帧中具有无效多边形值的行？

、、、、

我们在数据帧上使用PySpark函数，这会引发错误。错误很可能是由于数据帧中的错误行造成的。geometry_multipolygon: string (nullable = true)我已经将CSV中的"geometry_polygon“列转换为几何类型列错误发生时只需调用：错误：为了精确定位这些行

浏览 14提问于2022-10-18得票数 1

回答已采纳

点击加载更多

从PySpark DataFrame列中删除元素