如何将pyspark dataframe列转换为numpy数组

文章/答案/技术大牛

发布

1回答

pandas数据帧行使用sklearn进行缩放

、、、

如何将sklearn缩放器应用于pandas数据帧的所有行。这个问题与相关。如何将sklearn缩放器应用于一行的所有值？注意:我知道对于特性缩放来说，在列中包含特性和按列缩放特性是很正常的，就像refenced问题中那样。然而，我想使用sklearn标度器来预处理可视化数据，在我的例子中，按行扩展是合理的。

浏览 11提问于2019-11-13得票数 1

回答已采纳

3回答

是否将numpy数组转换为dataframe列？

、、、

如何将numpy数组转换为dataframe列。假设我已经创建了一个空的dataframe，df，并且我循环通过代码来创建5个numpy数组。在for循环的每次迭代中，我希望将在该迭代中创建的numpy数组转换为dataframe中的一列。为了清楚起见，我不想在每次循环迭代时都创建一个新的数据帧，我只想在现有的列中添加一

浏览 6提问于2017-06-08得票数 9

2回答

、、、

我正在尝试将一个大约有9000万行的pyspark dataframe列转换成一个numpy数组。我需要数组作为scipy.optimize.minimize函数的输入。我尝试过转换为Pandas和使用collect()，但这些方法非常耗时。我是PySpark的新手，如果有更快更好的方法，请帮助我。谢谢这就是我的数据帧的样子。

浏览 138提问于2019-09-30得票数 3

回答已采纳

1回答

如何将多个dataframe列转换为一个numpy数组列

、、

我有一个数据帧，如下所示 from pyspark import SparkContext, SparkConf,SQLContext config = SparkConfwithColumnRenamed("_2","word1").withColumnRenamed("_3","word2").withColumnRenamed("_4","word3") 现在我需要将第一列和其

浏览 18提问于2019-10-02得票数 0

回答已采纳

4回答

PySpark计算相关性

、、、、

我想使用pyspark.mllib.stat.Statistics.corr函数来计算pyspark.sql.dataframe.DataFrame对象的两列之间的相关性。如何将df['some_name']列转换为rdd of Vectors.dense对象？

浏览 12提问于2016-06-03得票数 16

回答已采纳

4回答

将numpy数组转换为数据帧

、、、

我有一个numpy数组，我想把它转换成一个dataframe。import numpy as npnparray = np.array([[1,2,3,4,5],[6,7,8,9,10]]) 如何将其转换为数据，其中数据将如下所示

浏览 6提问于2020-12-15得票数 1

回答已采纳

1回答

将Numpy数组追加到Pyspark* Dataframe中*

、、、、

我需要在PySpark数据帧中追加一个NumPy数组。array_var38mc = np.isclose(train3.select("var38").rdd.flatMap(lambda x: x).collect(), 117310.979016494) 输出是一个对象numpy.ndarray，如下面的[True, False, True] 接下来，我尝试附加一个Numpy数组，该数组以前是用同一个PySpark.D

浏览 7提问于2020-12-08得票数 0

回答已采纳

1回答

如何在python中从多维数组中分配多个变量

有一个X DataFrame。我想这样做a，b，c。

浏览 3提问于2021-02-07得票数 2

回答已采纳

3回答

将两个numpy数组转换为dataframe

、、、、

我想把两个DataFrame数组转换成一个包含两列的numpy数组。第一个numpy数组'images‘的形状是102, 1024。第二个numpy数组'label‘的形状为(1020, )images=np.array(images)l=np.array([images,label]) dataset=pd.DataFrame(l

浏览 1提问于2017-09-23得票数 9

回答已采纳

2回答

将具有Numpy值的熊猫数据转换为pysparkSQL.DataFrame

、、、、

我使用random.int方法创建了一个2列熊猫df，以生成第二个应用groupby操作的第二列数据。df.col1是一系列列表，df.col2是一系列整数，列表中的元素类型为‘numpy.int 64’，与第二列的元素相同，这是random.int的结果。当我尝试使用pyspark.sql (Df)创建spark.createDataFrame数据时，会得到以下错误: TypeError: not类型:类型‘numpy.int 64’。回到df生成阶段，我尝试了不同的方法将元素从<em

浏览 11提问于2017-07-31得票数 2

1回答

通过agg输出列获取Pandas组

这是我的密码 df或列名称栏可以由任意

浏览 7提问于2022-04-19得票数 -1

1回答

Databricks:如何将行的值转换为数组类型

、

假设我有下面的数据帧col1 a b c有什么想法吗？

浏览 16提问于2019-11-07得票数 0

1回答

如何将表达式iloc从pandas转换为Pyspark Dataframe？

、、

如何将pandas表达式转换为pyspark，这似乎不起作用，然后将dataframe转换为数组？--+-----+df = df.iloc[-N:, :] #expression in pandas df = df.collect()[-N:][:] # expression in Pyspark

浏览 11提问于2021-02-14得票数 0

回答已采纳

1回答

如何将int数组转换回熊猫时间戳？

、、

我能够将pandas timestamp类型的numpy数组列转换为int数组：import pandas as pd # [1547184601000000, 5.1],对于这个数组a，我想将

浏览 1提问于2019-08-15得票数 0

回答已采纳

2回答

将Numpy数组加载到单个Pandas DataFrame列

、、、、

我正在使用PySpark并尝试使用CSV来存储我的数据。我将我的Numpy数组转换为DataFrame，格式如下： label | 0 1 2 4 ... 768 1 | 0.12 0.23 0.31 0.72 ... 0.91 依此类推，将数组中的“行向量”本身的每个值拆分为单独的列。该格式与Spark不兼容，它需要

浏览 18提问于2020-10-01得票数 1

2回答

熊猫:在第n行后新造一栏

、

0990703643686265523我想在第三行之后创建一个新列。所以数据应该是这样的。提前谢谢。

浏览 2提问于2022-10-17得票数 -1

回答已采纳

1回答

使用PySpark并行化自定义函数

、

我熟悉使用UDF将自定义函数逐行应用于DataFrame。但是，我想知道如何将自定义函数并行应用于我的DataFrame的不同子集。下面是一个简化的例子：import pandas as pd

浏览 1提问于2018-07-20得票数 2

3回答

numpy型熊猫阵列的元素提取

、、、

我有一个熊猫dataframe df，它的元素是，每个都是一个完整的numpy数组。例如，'x_grid'列的第6行>>> print(e) >>> print(ty

浏览 0提问于2019-04-04得票数 3

回答已采纳

2回答

将字符串列表转换为数组类型

、、、、

我有一个带有string数据类型列的dataframe，但是实际的表示形式是数组类型。import pysparkitem = spark.createDataFrame([Row(item='fish',geography=['item.printSchema())# |-- item: string (nullable = true) # |-- geography: string (null

浏览 7提问于2022-04-19得票数 0

回答已采纳

1回答

如何将numpy数组存储为PySpark DataFrame中的新列？

、、、、

我已经从np.select获得了一个numpy数组，我希望将其存储为PySpark DataFrame中的一个新列。我怎么能这么做？from pyspark.sql import SparkSession我使用np.select的一些条件和选择如下 np.select(conditions, c

浏览 6提问于2022-05-25得票数 1

点击加载更多

pandas数据帧行使用sklearn进行缩放

是否将numpy数组转换为dataframe列？