如何从Pyspark dataframe列中选择一些行并将其添加到新的dataframe中？

文章/答案/技术大牛

发布

1回答

、、

我有10个数据帧，df1...df10有2列：id | 2011_result，id | 2012_result，...id| 2018_result在此之后，我需要从列表的所有其他数据框中选择其他列的</

浏览 7提问于2019-11-14得票数 0

1回答

'DataFrame‘对象不支持项分配

、、、、

我将df作为一个pyspark.sql.dataframe.DataFrame导入到Databricks中。在这个df中，我有3列(我已经证实它们是字符串)，我希望将它们连接起来。我试过先使用一个简单的"+“函数。因此，我试图在每一列后面添加.astype(str)，但没有结果。最后，我尝试简单地添加另一列，其中满是数字5：也收到了同样的错误。所以现

浏览 1提问于2022-12-02得票数 0

1回答

如何对pyspark* dataframe列应用函数*

、、

我正在尝试将我的pandas代码转换为pyspark dataframe，并尝试在dataframe的一列上应用函数。我在pandas dataframe中做了一些如下的事情。在操作了几个列值之后，将新列添加到pandas数据帧中，如下所示。return USD_amount salesData['

浏览 15提问于2020-01-03得票数 1

回答已采纳

1回答

如何将numpy数组存储为PySpark* DataFrame中的新列？*

、、、、

我已经从np.select获得了一个numpy数组，我希望将其存储为PySpark DataFrame中的一个新列。我怎么能这么做？from pyspark.sql import SparkSession pdf = pd.DataFrame({abc', 'cde', 'edf'

浏览 6提问于2022-05-25得票数 1

1回答

使用检查点从胞表读取和更新同一个表

、、

我正在使用spark版本2.3，并试图将spark中的蜂巢表读取为：from pyspark.sql.functions import*在这里，我添加了一个新列，其中包含了从system到现有的dataframe的当前日期 import pyspark.s

浏览 0提问于2018-12-06得票数 2

回答已采纳

10回答

如何将新列添加到星火DataFrame* (使用PySpark)？*

、、、、

我有一个火花DataFrame (使用PySpark 1.5.1)，并希望添加一个新的列。我尝试过以下几种方法，但都没有成功：还得到了一个错误，使用如下： my_df_spark.withColumn(&

浏览 13提问于2015-11-12得票数 179

回答已采纳

2回答

如何使用来自另一个数据帧的随机值更新PySpark中的数据帧？

、、、

我在PySpark中有两个数据帧，如下所示： Dataframe A:总共1000条记录 +-----++-----+| b|+-----+Dataframe B:共3条记录 +-----++-----+|06901|+-----+ 我需要在Dataframe A中添加一个名为Zip的新列，并使用从<em

浏览 12提问于2021-02-10得票数 2

回答已采纳

1回答

windowPartitionBy和pyspark中的重新分区

、、、

我在SparkR中有一个小代码，我想把它转换成pyspark。我对这个windowPartitionBy并不熟悉，并且重新分区。你能帮我了解一下这段代码是做什么的吗？

浏览 34提问于2020-12-18得票数 0

回答已采纳

1回答

如何将Sklearn SVM实现应用于使用SPARK ML计算的特征( Spark ML中缺少多类SVM )

、、、、

我有220 GB的数据。我已经将其作为两列读取到spark dataframe中: JournalID和Text。现在，我的数据帧中缺少27行。使用NGram类，我在dataframe中添加了另外两个列Unigram和Bigram，其中包含文本列中的单字和双字。然后，我使用一元和二元语法列上的pyspark<e

浏览 1提问于2018-12-17得票数 0

1回答

将向量列添加到吡咯DataFrame中

、、、

如何将Vectors.dense列添加到pyspark中？import pandas as pdfrom pyspark.sql import SQLContext py_df = pd.DataFrame.from_dict({"time": [59., 115.

浏览 1提问于2018-04-14得票数 1

回答已采纳

2回答

在collect_set后按值选择行

、、

使用方法f.agg和f.collect_set I在dataFrame中创建了一个列colSet，如下所示：我还尝试从调用方中删除f.col，并将

浏览 0提问于2018-06-11得票数 1

回答已采纳

1回答

创建一个新列，详细说明一个PySpark数据row中的行是否与另一列中的一个行匹配。

、、、

我想要创建一个函数，该函数从PySpark中的左联接创建一个新列，详细说明一个列中的值是否匹配或不匹配另一个dataframe逐行的列。例如，我们有一个PySpark dataframe (d1)具有列ID和名称，另一个PySpark dataframe (d2)具有相同的<

浏览 3提问于2021-12-11得票数 0

2回答

使用来自另一个dataframe的JSON对象创建新的数据

、、、、

我有一个dataframe，它在一个列中存储一个JSON对象。我希望处理JSON对象来创建一个新的dataframe (列的数目和类型不同，每行将从JSON对象生成n个新行)。我在下面编写了这样的逻辑:在迭代原始数据集时，将字典(行)附加到列表中。for item in row.json_object['obj']: # cre

浏览 4提问于2022-10-19得票数 1

回答已采纳

1回答

如何将一个csv文件中的列附加到第二个csv (具有不同索引)

、、

我正在将许多csv文件连接在一起，并希望从多列csv中获取一列，并将其作为新列附加到第二个csv中。问题是，列的行数不同，所以一旦达到现有csv中的行索引，我添加到现有csv中的新列就会被缩短。我尝试将新列作为第二个datafram

浏览 6提问于2019-06-26得票数 3

1回答

为什么我得到了df.select(dayofyear(df['Date']))['dayofyear(Date)']的一个例外，而不是withColumn('Days'，Days(df[‘Date’])

、、

很抱歉标题太长了，但正如网站所建议的那样，这是我的问题。在编写PySpark DataFrame时，我希望从DataFrame的Date列中提取天数，并将其添加到名为new_df的新DataFrame中。= new_df.withColumn('Days', df.select(dayofyear(df['Date&

浏览 4提问于2020-11-11得票数 0

回答已采纳

2回答

可以从Scala调用python函数吗？

、、、、

我正在创建一个火花作业，它要求使用用python编写的函数将列添加到dataframe中。其余的处理是使用Scala完成的。我已经找到了如何从pyspark调用Java/Scala函数的示例：我发现用另一种方式发送数据的唯一例子是使用pipe。我是否可以将整个dataframe发送到python函数，让函数操作数据并</em

浏览 3提问于2017-09-15得票数 5

1回答

选择一行并根据最大值显示列名。

、、、

我有一个Pyspark数据框架+---+----+----+----+|ID2| 4| 12| 7|+---+----+----+----+ 我要选择行ID3并选择三列的最大值，然后显示最大值的列名。因此，如果我为行ID3选择三列的最大值，它

浏览 0提问于2021-02-20得票数 0

回答已采纳

3回答

将新列追加到现有的拼花文件中

、、

是否有任何方法将新列附加到现有的拼花文件中？ pysaprk.DataFrame.withColumn()。之后，我想将新列保存在源文件中<

浏览 1提问于2015-08-04得票数 14

1回答

向类添加功能的最佳方法- PySpark

、、、、

有一段时间，我在寻找如何将多个列一次重命名为一个PySpark DF，并遇到了如下情况：def rename_sdf(df, mapper={}, **kwargs_mapper，其中通过赋值语句将方法添加到pyspark.DataFrame类中。问题是，我正在创建一个Github来存储我的所有函数和ETL，我认为如果我能够应用上面显示的逻辑，就可以非常容易地创建一个

浏览 6提问于2020-07-09得票数 1

1回答

需要一种从现有的Dataframe中创建熊猫数据的方法

、、、

我有一个Dataframe，我从csv文件中获得了我想选择这个Dataframe的一些行并创建一个新的Dataframe，但是选择这些行的逻辑很复杂，需要在函数中。此筛选器逻辑仅使用来自该行的数据，而不使用来自<e

浏览 2提问于2021-12-22得票数 0

点击加载更多