将Pyspark Dataframe列从数组转换为新列

文章/答案/技术大牛

发布

2回答

、

我有一个Pyspark Dataframe，其结构如下： |-- Id: string (nullable = true) |-- Q: array (nullable = true)我想把q数组转换成列(名为pr，值，qt)。另外，我想通过合并(添加)相同的列来避免重复的列。

浏览 12提问于2017-12-19得票数 11

回答已采纳

1回答

pyspark将数组转换为循环中的字符串

、、、

我有一个心理公园数据框架，它有字符串，整型和数组类型的列。我尝试对所有列运行for循环，以检查它们是否为任何数组类型的列，并将其转换为字符串。然后，pyspark数据框中的输出应该包含int、string列。下面的代码将只返回从数组转换为字符串的列。如何包含else语句以从dataframe中获取不是数组类型

浏览 20提问于2021-04-11得票数 0

回答已采纳

1回答

Databricks:如何将行的值转换为数组类型

、

假设我有下面的数据帧col1 a b c有什么想法吗？

浏览 16提问于2019-11-07得票数 0

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

、、

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame带有时间戳字符串的pyspark列在验证时间戳格式的基础上，为每个

浏览 4提问于2021-11-19得票数 0

回答已采纳

2回答

我有一个dataframe，它在一个列中存储一个JSON对象。我希望处理JSON对象来创建一个新的dataframe (列的数目和类型不同，每行将从JSON对象生成n个新行)。我在下面编写了这样的逻辑:在迭代原始数据集时，将字典(行)附加到列表中。for item in row.json_object['obj']: # create a dictionary to represent each row of a new da

浏览 4提问于2022-10-19得票数 1

回答已采纳

1回答

如何将所有的日期格式转换为日期列的时间戳？

、、、

我使用的是PySpark版本3.0.1。我正在将csv文件读取为具有2个日期列的PySpark数据帧。但是，当我尝试打印模式时，两列都被填充为字符串类型。 ? ? 上面附加的屏幕截图是Dataframe和Dataframe模式。如何使用pyspark将date列中的行值转换为时间戳格式？我已经尝试了很多东西，但所有的代码都需要当前的格式，但如何转换为正确的时间戳，如

浏览 16提问于2020-12-30得票数 2

1回答

如何对pyspark* dataframe列应用函数*

、、

我正在尝试将我的pandas代码转换为pyspark dataframe，并尝试在dataframe的一列上应用函数。我在pandas dataframe中做了一些如下的事情。在操作了几个列值之后，将新列添加到pandas数据帧中，如下所示。return USD_amount salesData['Sales (INR)'] = salesData.apply(convert_USD_INR,

浏览 15提问于2020-01-03得票数 1

回答已采纳

1回答

将字符串数组的pyspark列转换为databricks上的字符串时出错

、、、

我正在尝试将pyspark dataframe列从字符串数组转换为字符串。，我的py3代码： import pyspark.sql.functions as F t = df.withColumn('text', F.concat_ws(", ", df.text)

浏览 7提问于2020-09-14得票数 0

回答已采纳

1回答

如何将numpy数组存储为PySpark* DataFrame中的新列？*

、、、、

我已经从np.select获得了一个numpy数组，我希望将其存储为PySpark DataFrame中的一个新列。我怎么能这么做？from pyspark.sql import SparkSession我使用np.select的一些条件和选择如下 np.select(cond

浏览 6提问于2022-05-25得票数 1

1回答

如何将列转换为十六进制，然后连接到具有固定长度的新列？

、

我有3个数字列，如下所示：df = pd.DataFrame()df['col2']=[7, 65, 150]我希望在将这三列转换为十六进制后创建一个新的列，以便将col1转换为5位十六进制，<

浏览 4提问于2018-09-11得票数 1

回答已采纳

1回答

从星星之火数据中的列表中提取值，而不转换为熊猫

、、

我非常绿色的火花，所以我把它转换成一个熊猫DataFrame，然后使用地图功能，我提取所需的元素。问题是，数据是巨大的，因此这种方法是不可扩展的。让我花时间的是toPandas()命令。是否有从每一行访问列表中的值的选项？谢谢!

浏览 5提问于2021-12-09得票数 1

回答已采纳

4回答

PySpark计算相关性

、、、、

我想使用pyspark.mllib.stat.Statistics.corr函数来计算pyspark.sql.dataframe.DataFrame对象的两列之间的相关性。如何将df['some_name']列转换为rdd of Vectors.dense对象？

浏览 12提问于2016-06-03得票数 16

回答已采纳

1回答

从一个ArrayType数据中获取PySpark列，并在另一个数据中获取相应的值

、、、、

4300000953...| [1673]|+--------------------+------------+ 我需要添加几个新列来执行计算在第一种情况下，我需要向规则dataframe中添加一个新列，该列具有来自itemset dataframe的相应频率。因此，例如，在结果为7084781116的情况下，新列将具有来自item

浏览 1提问于2019-08-01得票数 1

回答已采纳

1回答

创建一个新列，详细说明一个PySpark数据row中的行是否与另一列中的一个行匹配。

、、、

我想要创建一个函数，该函数从PySpark中的左联接创建一个新列，详细说明一个列中的值是否匹配或不匹配另一个dataframe逐行的列。例如，我们有一个PySpark dataframe (d1)具有列ID和名称，另一个PySpark dataframe (d2)具有相同的列- ID和Name。我试图创建一个连接这两个表的函数，并创建一个新<em

浏览 3提问于2021-12-11得票数 0

1回答

Pyspark数据框架操作的单元测试用例

、、、

我已经用python写了一些带有sql上下文的代码，即pyspark，通过将csv转换为pyspark dataframe来对csv执行一些操作(df操作，如预处理、重命名列名、创建新列并将其附加到相同的dataframe中等)。有谁能帮我在pyspark的dataframe上写单元测试用例吗？或者给我一些数据帧上的测试用例的来源？

浏览 1提问于2016-04-14得票数 3

1回答

pyspark.pandas API:构造共生矩阵，.dot()不支持数据作为输入。

、、、

我试图使用pyspark.pandas API在数据库上构造数据的共生矩阵。该代码在熊猫中运行良好，但在使用pyspark.pandas时出现了错误。coocc = psdf.T.dot(psdf)我得到了这个错误我查过医生了。pyspark.pandas.DataFrame.dot() 以串联作为输入。我尝试使用psdf.squeeze()将datafram

浏览 8提问于2022-10-14得票数 0

回答已采纳

1回答

pandas数据帧行使用sklearn进行缩放

、、、

如何将sklearn缩放器应用于pandas数据帧的所有行。这个问题与相关。如何将sklearn缩放器应用于一行的所有值？注意:我知道对于特性缩放来说，在列中包含特性和按列缩放特性是很正常的，就像refenced问题中那样。然而，我想使用sklearn标度器来预处理可视化数据，在我的例子中，按行扩展是合理的。

浏览 11提问于2019-11-13得票数 1

回答已采纳

1回答

从字符串列中提取每个不同的单词，并将它们放入新的dataframe中。

、、、

我正试图在中找到列中的所有字符串。val_new word_index car 2 book 4 import pyspark.sql.functions ascar'), (18, 'car TV bike')], ['id', 'val'])我已经将</e

浏览 6提问于2020-11-09得票数 1

回答已采纳

2回答

从PySpark* DataFrame列中删除元素*

我知道PySpark DataFrames是不可变的，所以我想创建一个新列，该列是根据应用到PySpark DataFrame的现有列的转换生成的。我的数据太大了，无法使用collect()。该列是唯一int列表(在给定列表中不重复int)，例如：[1,2][2,3] 上面是一个玩具例子，因为我的实际DataFrame有一个最大长度为52个唯一ints的列表。我想要生成一个列，它遍历int

浏览 9提问于2017-01-12得票数 1

回答已采纳

1回答

Pyspark:从列表的RDD创建spark数据帧，其中列表的一些元素是对象

、、、、

我正在尝试将pandas.DataFrame代码转换为等效的pyspark DataFrame。我有一个以下格式的RDD。在pandas数据帧中，我可以将第三列视为dtype=object。pdDF = pandas.DataFrame(myRdd, columns=columnNames) 我可以做一些类似的事情，将上述格式的pyspark RDD转换为pyspark DataFrame<

浏览 1提问于2018-04-07得票数 1

点击加载更多