将不同值量转换为pyspark中的列

、、、

我正在研究PySpark。我有一个数据框，我需要将其转储为JSON文件，但JSON文件应具有以下格式，例如- {"Column 1": [9202, 9202, 9202, ....], "Column 2": ["FEMALE因此，每列应该有一个键，相应的值应该包含该列中的所有值的列表我尝试将其转换为Pandas数据帧，然后在将其作为JSON<e

浏览 14提问于2019-12-18得票数 1

回答已采纳

1回答

、、、

我有一个这样的数据帧： +--------------------+------------------------+| AUTO & VEHICLES| 1| 并希望将其转换为数据帧-----------------+------------------------+ | 1 | 1 |

浏览 13提问于2020-10-30得票数 0

回答已采纳

1回答

如何转换pyspark dataframe列的值？

、、、、

我在pyspark数据框中有一列表示电子设备的年龄，这些值是以毫秒为单位给出的。有没有一种简单的方法将该列的值转换为年份？我不是很精通Spark。编辑:我知道你可以很容易地用基本的数学将毫秒转换为年，我正在尝试获取pyspark数据帧的一列，并迭代它，并将所有列值转换

浏览 17提问于2021-05-20得票数 1

1回答

用数据库中的pyspark将纳秒值转换为日期时间

、、、

我正在尝试重新创建我已经用Python使用Databricks完成的一些工作。我有一个数据，其中有一个名为“time”的列，以纳秒为单位。在Python中，我使用以下代码将字段转换为适当的日期时间值： # Convert time field from nanoseconds into datetimedf["time"] = pd.to_datetime(df["time&quo

浏览 5提问于2022-07-05得票数 0

回答已采纳

1回答

将带有UTC偏移量的字符串转换为spark时间戳

、、、

如何将字符串2018-03-21 08:15:00 +03:00存储为timestamptype，同时保留spark中的UTC偏移量？已在下面尝试 df = spark.createDataFrame([("2018-03-21 08:15:00 +03:00"df.withColumn("newtimestamp", to_timestamp(col('timestamp'

浏览 2提问于2021-02-17得票数 4

2回答

散列md5: Pyspark和submit在时间戳列上不提供相同的输出

、、

在PySpark中，我使用md5函数散列一些数据格式。df_hive = spark.sql("select * from db.table1 where day=1") df_hive

浏览 2提问于2021-04-26得票数 1

回答已采纳

2回答

将具有Numpy值的熊猫数据转换为pysparkSQL.DataFrame

、、、、

我使用random.int方法创建了一个2列熊猫df，以生成第二个应用groupby操作的第二列数据。df.col1是一系列列表，df.col2是一系列整数，列表中的元素类型为‘numpy.int 64’，与第二列的元素相同，这是random.int的结果。当我尝试使用pyspark.sql (Df)创建spark.createDataFrame数据时，会得到以下错误: TypeError: not类型:类型‘numpy.int 64

浏览 11提问于2017-07-31得票数 2

1回答

PySpark --将具有扫描功能的sas宏转换为火花放电

、、、、

我是pyspark和python的初学者，并试图将我的SAS宏之一转换为pyspark，但无法找到与SAS中的扫描功能等价的有用资源，而且在EMR studio pyspark集群中执行when循环也有困难我正在尝试将下面的SAS宏转换为pyspark，谢谢大家。

浏览 6提问于2022-11-22得票数 0

1回答

pyspark.pandas API:构造共生矩阵，.dot()不支持数据作为输入。

、、、

我试图使用pyspark.pandas API在数据库上构造数据的共生矩阵。该代码在熊猫中运行良好，但在使用pyspark.pandas时出现了错误。pyspark.pandas.DataFrame.dot() 以串联作为输入。我尝试使用psdf.squeeze()将dataframe转换为系列化，但它并不将dataframe转换为串联，因为我的dataframe有多个列。有没有办法<e

浏览 8提问于2022-10-14得票数 0

回答已采纳

1回答

如何将所有的日期格式转换为日期列的时间戳？

、、、

我使用的是PySpark版本3.0.1。我正在将csv文件读取为具有2个日期列的PySpark数据帧。但是，当我尝试打印模式时，两列都被填充为字符串类型。 ? ? 上面附加的屏幕截图是Dataframe和Dataframe模式。如何使用pyspark将date列中的行值转换为时间戳格式？我已经尝试了很多东西，但所

浏览 16提问于2020-12-30得票数 2

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

、、

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame带有时间戳字符串的pyspark</

浏览 4提问于2021-11-19得票数 0

回答已采纳

1回答

用PySpark将列转换为小写

、、

我希望将所有的值转换为"Channel“列中的小写。我在jupyter笔记本中用PySpark创建了PySpark。我尝试过的代码，但得到了一个错误。所以它不是重复的。我的数据如下：123 Hair Fashion我希望它是：124

浏览 1提问于2020-02-25得票数 0

回答已采纳

3回答

在Scala中将结构化数据类型转换为映射数据类型

、、、、

如何将数据类型为struct的列转换为Map或String。true) | |-- _2: integer (nullable = false) 当我想将dataframe转储到文件中时，第二列出现了问题。我尝试过许多不同的方法，比如转换为string，但是它改变了第二列中的<e

浏览 0提问于2019-07-31得票数 0

回答已采纳

1回答

Scala - MaxBins错误-决策树-范畴变量

、、、

categoricalFeaturesInfo += (1 -> 7) java.lang.IllegalArgumentException:需求失败: DecisionTree要求maxBins (= 3)至少与每个分类特性中的值数目一样大，但是分类功能0有31个值。考虑删除具有大量值的此功能和其他分类功能，或添加更多的培训示例。31，我尝试过maxBins = 32 (根据这些帖子中的答案)。就像试用n错误一样，我尝试了所有的值</

浏览 1提问于2017-11-20得票数 0

1回答

pyspark中的to_json包含空值，但我需要空值作为空

、、、、

我正在使用pyspark中的to_json将dataframe中的结构列转换为json列，但是在json中忽略了少数结构字段中的空值，我不希望这些空值被忽略。

浏览 6提问于2020-10-14得票数 0

5回答

火花放电中柱的比较

、、

我正在开发一个包含n列的PySpark DataFrame。我有一组m列(m < n)，我的任务是选择其中包含最大值的列。例如：col_1 = [1,2,3], col_2 = [2,1,4], col_3 = [3,2,5]col_4 = max(col1,col_2, col_3) = [3,2,5] 正如问题中所解释的那样，熊猫身上也有类似的

浏览 7提问于2016-06-07得票数 29

回答已采纳

1回答

如何转换Python中带有时区偏移量的时间戳列列表( 1)转换为UTC 2)转换为EST 3)删除TZ偏移量&按原样存储

、、、、

如何用时区偏移量转换Pandas中的时间戳列列表我在Pandas数据帧中列出了四列，其中具有时区偏移的时间戳如下：ts_lst = SLA_START_TIME，SLA_STOP_TIME，RES_START_TIME，RES_STOP_TIME示例值</e

浏览 5提问于2022-09-30得票数 -1

回答已采纳

1回答

用Pandas导入数据

、

我使用Pandas/Python将查询日志作为表导入到数据框架中，如下所示：q_data_1 = pd.read_table('table_data.txt',skiprows=6, thousands=',') Col

浏览 0提问于2013-05-24得票数 0

1回答

如何删除pyspark中的常量列，而不是具有空值和一个其他值的列？

、、

例如：How to automatically drop constant columns in pyspark?但我发现，没有一个答案解决了这个问题，即countDistinct()不将空值视为不同的值。因此，只有两个结果null和none NULL值的列也将被删除。一个丑陋的解决方案是将spark dataframe中的所有null值替换为您

浏览 23提问于2021-04-01得票数 1

回答已采纳

2回答

将Server转换为mySQL DateTime

、、

我的任务是编写一个SSIS包，将多个Server数据库转换为mySQL，我当前的问题是来自Server的DATETIMEOFFSET数据类型。我尝试过转换字段，尝试转换它，然后将其转换为日期时间数据类型，但是没有运气。但我所做的每一件事都导致了这个错误：对于如何将这个

浏览 1提问于2019-04-11得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

以每列为关键字将PySpark数据帧转换为JSON