如何转换pyspark dataframe列的值？ - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

如何将所有的日期格式转换为日期列的时间戳？

、、、

我使用的是PySpark版本3.0.1。我正在将csv文件读取为具有2个日期列的PySpark数据帧。但是，当我尝试打印模式时，两列都被填充为字符串类型。 ? ? 上面附加的屏幕截图是Dataframe和Dataframe模式。如何使用pyspark将date列中的行值转换为时间戳格式？我已经尝试了很多东西，但所

浏览 16提问于2020-12-30得票数 2

1回答

如何对pyspark dataframe列应用函数

、、

我正在尝试将我的pandas代码转换为pyspark dataframe，并尝试在dataframe的一列上应用函数。我在pandas dataframe中做了一些如下的事情。在操作了几个列值之后，将新列添加到pandas数据帧中，如下所示。return USD_amount salesData['Sales (INR)'] = salesData.apply

浏览 15提问于2020-01-03得票数 1

回答已采纳

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

、、

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame # like column.map(lambd

浏览 4提问于2021-11-19得票数 0

回答已采纳

4回答

PySpark计算相关性

、、、、

我想使用pyspark.mllib.stat.Statistics.corr函数来计算pyspark.sql.dataframe.DataFrame对象的两列之间的相关性。如何将df['some_name']列转换为rdd of Vectors.dense对象？

浏览 12提问于2016-06-03得票数 16

回答已采纳

1回答

使用map函数将Spark Dataframe转换为RDD

、、

我正在尝试将spark数据框中的列拆分为多个值。因此，我分隔了要拆分的列，并检查了其类型：O: pyspark.sql.dataframe.DataFrame 当我使用以下命令分割字符串时TopicModelVectorSplit = TopicModelVector.select('TopicModelVector').map(lambda line: line.te

浏览 0提问于2016-06-22得票数 0

5回答

火花放电中柱的比较

、、

我正在开发一个包含n列的PySpark DataFrame。我有一组m列(m < n)，我的任务是选择其中包含最大值的列。例如：col_1 = [1,2,3], col_2 = [2,1,4], col_3 = [3,2,5]col_4 = max(col1,col_2, col_3) = [3,2,5] 正如问题中所解释

浏览 7提问于2016-06-07得票数 29

回答已采纳

1回答

spark将日期时间转换为时间戳

、、、

我在pyspark dataframe中有一个列，它的格式是2021-10-28T22:19:03.0030059Z (字符串数据类型)。如何在pyspark中将其转换为时间戳数据类型？我正在使用下面的代码片段，但它返回空值，因为它无法转换它。有没有人能推荐一下如何转换这个？

浏览 173提问于2021-11-05得票数 1

1回答

PySpark PCA:如何将数据行从多列转换为单列DenseVector？

、、、、

我想使用PySpark (Spark1.6.2)对存在于Hive表中的数值数据执行主成分分析(PCA)。= hiveContext.sql("SELECT * FROM my_table")<class 'pyspark.sql.dataframe.DataFrame有一篇优秀的StackOverflow文章展示了如何在PySpark：中执

浏览 1提问于2016-10-06得票数 4

回答已采纳

1回答

如何转换pyspark* dataframe列的值？*

、、、、

我在pyspark数据框中有一列表示电子设备的年龄，这些值是以毫秒为单位给出的。有没有一种简单的方法将该列的值转换为年份？我不是很精通Spark。编辑:我知道你可以很容易地用基本的数学将毫秒转换为年，我正在尝试获取pyspark数据帧的一列，并迭代它，并将所有列值转换为不同<

浏览 17提问于2021-05-20得票数 1

2回答

列的值为null，并在中进行交换。

、、、、

我正在使用pyspark==2.3.1。我用熊猫对数据进行了数据预处理，现在我想把我的预处理功能转换成熊猫的火花放电。但是，当使用pyspark读取数据CSV文件时，许多值将变为空列，而该列实际上有一些值。如果我试图对这个dataframe执行任何操作，那么它将与其他列交换列的值。我也尝试过不同版本的火花放电。谢谢 <

浏览 5提问于2022-02-16得票数 0

回答已采纳

1回答

pyspark.pandas API:构造共生矩阵，.dot()不支持数据作为输入。

、、、

我试图使用pyspark.pandas API在数据库上构造数据的共生矩阵。该代码在熊猫中运行良好，但在使用pyspark.pandas时出现了错误。coocc = psdf.T.dot(psdf)我得到了这个错误我查过医生了。pyspark.pandas.DataFrame.dot() 以串联作为输入。我尝试使用psdf.squeeze()将datafram

浏览 8提问于2022-10-14得票数 0

回答已采纳

1回答

pyspark中的to_json包含空值，但我需要空值作为空

、、、、

我正在使用pyspark中的to_json将dataframe中的结构列转换为json列，但是在json中忽略了少数结构字段中的空值，我不希望这些空值被忽略。

浏览 6提问于2020-10-14得票数 0

1回答

Databricks:如何将行的值转换为数组类型

、

假设我有下面的数据帧col1 a b c有什么想法吗？

浏览 16提问于2019-11-07得票数 0

1回答

如何使用pyspark将数值转换为分类变量

有一系列数值变量的pyspark数据帧。例如我的dataframe有一个从1到100的列值。1-10 - group1<== 1到10的列值应包含group1作为值11-20 - group2。。。91-100 group10 如何使用pyspark dataframe实现这一点？

浏览 15提问于2019-04-10得票数 1

回答已采纳

1回答

用电火花将稠密向量转换成数据

、、、

首先，我尝试了下面链接中的所有内容来修复我的错误，但是没有一个有效。我正试图将密集向量转换为dataframe (最好是星火)，并附带列名并遇到问题。我在中的列是使用创建的一个向量，现在我想将它转换回一个dataframe，因为我想在向量中的一些变量上创建图。转换为Pandas dataframe，之后我无法将值拆分为不同的列</em

浏览 0提问于2018-09-27得票数 3

回答已采纳

4回答

如何将向量的列拆分成两列？

、、

我使用PySpark。output2 = output.withColumn('prob1', output.m

浏览 2提问于2016-05-19得票数 7

1回答

将向量列添加到吡咯DataFrame中

、、、

如何将Vectors.dense列添加到pyspark中？import pandas as pdfrom pyspark.sql import SQLContext py_df = pd.DataFrame.from_dict({"time": [59., 115., 156., 421.], &qu

浏览 1提问于2018-04-14得票数 1

回答已采纳

1回答

Pyspark:从列表的RDD创建spark数据帧，其中列表的一些元素是对象

、、、、

我正在尝试将pandas.DataFrame代码转换为等效的pyspark DataFrame。我有一个以下格式的RDD。[2, 'b', {'c': 1, 'd':3}],内部列表中的第三个元素没有特定<

浏览 1提问于2018-04-07得票数 1

2回答

pyspark数据帧中所有列的总计数为零

、、

我需要找出pyspark dataframe中所有列中0的百分比。如何在数据帧中找到每一列的零计数？附言:我尝试过将数据帧转换为pandas数据帧，并使用了value_counts。但是，对于大型数据集来说，推断它的观察值是不可能的。

浏览 0提问于2018-08-20得票数 4

2回答

我有一个dataframe值为false、true或null。我想创建两个dataframes，1)只使用True列名，2)只使用假列名。我最初的想法是创建两个dataframes (因为它们稍后将被附加到一个更大的数据集中)，或者我还考虑将适当的列名转换为一个列表，然后将列表名称转换为列名。我是pySpark新手，我想知道如何在不硬编码任何列名(我有几百列)的情况下做到这一点，我知道我不能遍历行，

浏览 3提问于2020-05-07得票数 1

回答已采纳

点击加载更多

如何将所有的日期格式转换为日期列的时间戳？

如何对pyspark dataframe列应用函数

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

PySpark计算相关性

使用map函数将Spark Dataframe转换为RDD

火花放电中柱的比较

spark将日期时间转换为时间戳

PySpark PCA:如何将数据行从多列转换为单列DenseVector？

如何转换pyspark* dataframe列的值？*

列的值为null，并在中进行交换。

pyspark.pandas API:构造共生矩阵，.dot()不支持数据作为输入。

pyspark中的to_json包含空值，但我需要空值作为空

Databricks:如何将行的值转换为数组类型

如何使用pyspark将数值转换为分类变量

用电火花将稠密向量转换成数据

如何将向量的列拆分成两列？

将向量列添加到吡咯DataFrame中

Pyspark:从列表的RDD创建spark数据帧，其中列表的一些元素是对象

pyspark数据帧中所有列的总计数为零

在pySpark中按条件分割数据

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐