如何处理pyspark dataframe列

文章/答案/技术大牛

发布

1回答

FInd数据帧中的第一个非零元素

、、

我正在处理一个pyspark dataframe，并尝试查看是否有一种方法可以提取spark dataframe中第一个非零元素的索引。我自己添加了索引列，因为pyspark不支持它，而不是pandas。

浏览 29提问于2021-10-08得票数 0

1回答

、、

我有一个>4k列的pyspark df，没有任何标签/标题。根据列值，我需要对每一列应用特定的操作。我使用pandas也做了同样的事情，但我不想使用pandas，而是想直接在spark dataframe上应用列转换。如果df有大于4k的列而没有任何label.also，我不想在特定的df列索引上应用转换。

浏览 4提问于2017-02-08得票数 0

1回答

将ML VectorUDT特性从.mllib转换为.ml类型进行线性回归

、、

/w4s3yhez1497323663423/basma.csv/") data.count() .toDF() from pyspark.ml.feature

浏览 3提问于2017-06-14得票数 5

回答已采纳

2回答

我正在创建一个火花作业，它要求使用用python编写的函数将列添加到dataframe中。其余的处理是使用Scala完成的。我已经找到了如何从pyspark调用Java/Scala函数的示例：我发现用另一种方式发送数据的唯一例子是使用pipe。我是否可以将整个dataframe发送到python函数，让函数操作数据并添加其他列，然后将结果数据返回给调用的Scala函数？如果这是不可能的，我目前的解决方案是运行一个pyspark</

浏览 3提问于2017-09-15得票数 5

1回答

windowPartitionBy和pyspark中的重新分区

、、、

我在SparkR中有一个小代码，我想把它转换成pyspark。我对这个windowPartitionBy并不熟悉，并且重新分区。你能帮我了解一下这段代码是做什么的吗？

浏览 34提问于2020-12-18得票数 0

回答已采纳

2回答

如何在pyspark中合并重复的列？

、、

我有一个pyspark dataframe，其中一些列具有相同的名称。我想将具有相同名称的所有列合并到一列中。例如，输入dataframe： ? 我如何在pyspark中做到这一点？

浏览 57提问于2021-06-18得票数 2

回答已采纳

2回答

列的值为null，并在中进行交换。

、、、、

我正在使用pyspark==2.3.1。我用熊猫对数据进行了数据预处理，现在我想把我的预处理功能转换成熊猫的火花放电。但是，当使用pyspark读取数据CSV文件时，许多值将变为空列，而该列实际上有一些值。如果我试图对这个dataframe执行任何操作，那么它将与其他列交换列的值。我也尝试过不同版本的火花放电。谢谢列"property_type“的值为null，但实际的

浏览 5提问于2022-02-16得票数 0

回答已采纳

1回答

Pyspark:获取嵌套结构列的数据类型

、、、

我目前正在处理一些相当复杂的json文件，我应该将它们转换并写入增量表。问题是，当涉及到列的数据类型时，每个文件都有细微的差异。有人能给我解释一下检索嵌套结构列的数据类型的一般方法吗？在互联网上，我只能找到如何对它们做选择：https://sparkbyexamples.com/pyspark/pyspark-select-nested-struct-columns/ 如果我有这样的格式编辑: Json文件当然已经写在datafr

浏览 42提问于2021-10-22得票数 0

1回答

Pyspark数据框架操作的单元测试用例

、、、

我已经用python写了一些带有sql上下文的代码，即pyspark，通过将csv转换为pyspark dataframe来对csv执行一些操作(df操作，如预处理、重命名列名、创建新列并将其附加到相同的dataframe中等)。有谁能帮我在pyspark的dataframe上写单元测试用例吗？或者给我一些数据帧上的测试用例的来源？

浏览 1提问于2016-04-14得票数 3

4回答

如何选择最后一行，以及如何按索引访问PySpark数据？

、、、

来自类似于PySpark SQL数据文件的abc 20 A如何获得最后一行。以及如何通过第12或200号index.like行访问数据行。在熊猫里我能做到df.ix[rowno or index] # by index我只是好奇如何以这样的方式或替代的方式访问pyspark。

浏览 7提问于2016-09-17得票数 16

回答已采纳

4回答

PySpark计算相关性

、、、、

我想使用pyspark.mllib.stat.Statistics.corr函数来计算pyspark.sql.dataframe.DataFrame对象的两列之间的相关性。如何将df['some_name']列转换为rdd of Vectors.dense对象？

浏览 12提问于2016-06-03得票数 16

回答已采纳

1回答

在pyspark数据帧中用数字替换字符串

、

我刚接触pyspark，我想在pyspark dataframe列中动态地用数字替换名称，因为我的dataframe中有超过500,000个名称。如何继续？

浏览 9提问于2019-07-25得票数 0

1回答

如何估计星火DataFrame中每列的大小(以字节为单位)？

、

我有一个非常大的星火DataFrame和许多列，我想作出一个明智的判断是否保持在我的管道中，部分取决于它们有多大。所谓“有多大”，我指的是缓存这个DataFrame时内存中字节的大小，我希望这是对处理这些数据的计算成本的一个不错的估计。有些列是简单类型(例如，双列、整数列)，而另一些列是复杂类型(例如数组和可变长度映射)。我尝试过的一种方法是在没有列的情况下缓存DataFrame，然后查看Spark中的Storage，然后取不同的内容。但是对于一个<e

浏览 0提问于2019-02-25得票数 2

回答已采纳

1回答

PySpark PCA:如何将数据行从多列转换为单列DenseVector？

、、、、

我能够将Hive表导入到：>>> hiveContext = HiveContext(sc)>>> type(dataframe) <class 'pyspark.sql.dataframe.Da

浏览 1提问于2016-10-06得票数 4

回答已采纳

1回答

向类添加功能的最佳方法- PySpark

、、、、

有一段时间，我在寻找如何将多个列一次重命名为一个PySpark DF，并遇到了如下情况：def rename_sdf(df, mapper={}, **kwargs_mapper): # return something 我对最后一段感兴趣，其中通过赋值语句将方法添加到pyspar

浏览 6提问于2020-07-09得票数 1

1回答

将向量列添加到吡咯DataFrame中

、、、

如何将Vectors.dense列添加到pyspark中？import pandas as pdfrom pyspark.sql import SQLContext py_df = pd.DataFrame.from_dict({"time": [59., 115., 156., 421.], &qu

浏览 1提问于2018-04-14得票数 1

回答已采纳

2回答

使用list并替换pyspark列

、

假设我有一个列表new_id_acc = 6,8,1,2,4，我有像这样的PySpark DataFrame id_acc | name | 20| XYZ | 34 | RAH | 19 | SPD | 我想用new_id_acc值替换pyspark列id_acc，我该如何实现并做到这一点我尝试过，发现除了常量值之外，可以使用lit()，但是没有找到任何如何<e

浏览 27提问于2019-05-14得票数 1

1回答

星火DataFrame如何区分不同的VectorUDT对象？

、、、、

我正在尝试理解DataFrame列类型。当然，DataFrame不是一个物化的对象，它只是一组Spark的指令，将来要转换成代码。但我认为，这个类型列表代表了在执行操作时JVM中可能出现的对象类型。import pysparkimport pyspark.sql.functions as Fd() 四个向量值的列在printSchema() (或schema)中看起来

浏览 1提问于2016-07-31得票数 7

回答已采纳

1回答

如何使用pyspark将数值转换为分类变量

有一系列数值变量的pyspark数据帧。例如我的dataframe有一个从1到100的列值。1-10 - group1<== 1到10的列值应包含group1作为值11-20 - group2。。。91-100 group10 如何使用pyspark dataframe实现这一点？

浏览 15提问于2019-04-10得票数 1

回答已采纳

点击加载更多

FInd数据帧中的第一个非零元素