将2D列表转换为pyspark DF_将100k行pyspark df转换为pandas df_将pyspark dataframe转换为python字典列表 - 腾讯云开发者社区

、、

在spark中将列表转换为DF，因此需要帮助找出将2d列表映射到DG的方法 a = [[1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1],[1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1] s

浏览 12提问于2021-10-27得票数 0

2回答

无法从列表中创建dataframe : pyspark

、、、

我有一个由函数生成的列表。当我在列表中执行print时：我获得：df = sqlContext.createDataFrame(preds_labels, ["prediction", "label"])

浏览 1提问于2016-08-07得票数 7

回答已采纳

1回答

用数据库中的pyspark将纳秒值转换为日期时间

、、、

在Python中，我使用以下代码将字段转换为适当的日期时间值：此代码将下列值1642778070000000000转换为2022-01-21 15:14:30.现在，

浏览 5提问于2022-07-05得票数 0

回答已采纳

2回答

RDD[string]：将DataFrame转换为pyspark

、、、、

我想将pyspark.sql.dataframe.DataFrame转换为pyspark.rdd.RDD[String]data = df.rddtype (data)新的RDD data包含Rowtype(first)R

浏览 2提问于2016-02-17得票数 8

回答已采纳

2回答

将具有Numpy值的熊猫数据转换为pysparkSQL.DataFrame

、、、、

df.col1是一系列列表，df.col2是一系列整数，列表中的元素类型为‘numpy.int 64’，与第二列的元素相同，这是random.int的结果。df.a df.b5 2...当我尝试使用pyspark.sql (Df)创建spark.createDataFrame数据时，会得到以下错误: TypeError: not类型:类型‘numpy.i

浏览 11提问于2017-07-31得票数 2

2回答

如何正确循环和构建pyspark dataframe

、、、、

我已经完成了Pyspark dataframe的逻辑，现在必须应用不同的输入并组合结果。我想知道创建一个UDF并多次调用它是否对性能有任何好处，而不是遍历这些值，如下所示。

浏览 0提问于2019-07-03得票数 1

1回答

在PySpark中替换浮点型nan将0转换为空值

、、

我有一些在我的PySpark数据帧中显示为NaN的值，我发现我可以将这些值转换为空值。然后，我通过将该值赋给其他值来调整这些空值。在执行此操作时，我发现它也将我的许多专栏中的0转换为NULL。为什么会发生这种情况，以及如何在不影响0的情况下将nans转换为NULL？cSchema = StructType([StructField("col", LongType())])test_<e

浏览 2提问于2020-02-27得票数 0

1回答

无法在PySpark中追加要列出的元素

、、、、

我试图比较表的行，并记录在PySpark环境中发生更改的DataBricks环境中的值。我创建了一个空列表，并试图在发生更改时将项追加到列表中。问题是，当我发现一个更改并插入到列表中时，我会得到以下错误： df = df.

浏览 2提问于2020-11-05得票数 0

2回答

在PySpark中将多个列转换为字符串的有效方法

、、、

在SO上有很好的记录(，，，.)如何通过类推将单个变量转换为string类型的PySpark：spark_df= spark_df.withColumn('name_of_column', spark_df[name_of_column].cast(StringType())) 但是，当您有几个要转换为string使用列表理

浏览 3提问于2018-05-16得票数 3

回答已采纳

2回答

将spark dataframe转换为不带pandas dataframe的元组列表

、、

我有一个现有的逻辑，可以将pandas数据帧转换为元组列表。 list(zip(*[df[c].values.tolist() for c in df])) 其中df是一个熊猫数据帧。有没有人能帮我在pyspark中实现同样的逻辑呢？

浏览 17提问于2019-10-15得票数 1

2回答

Pyspark将标准列表转换为数据帧

、、、

这种情况非常简单，我需要使用以下代码将python列表转换为数据帧from pyspark.sql.types importStructField

浏览 0提问于2018-01-26得票数 40

回答已采纳

2回答

我正在研究PySpark。我有一个数据框，我需要将其转储为JSON文件，但JSON文件应具有以下格式，例如- {"Column 1": [9202, 9202, 9202, ....], "Column 2": ["FEMALE因此，每列应该有一个键，相应的值应该包含该列中的所有值的列表我尝试将其转换为Pandas数据帧，然后在将其作为JSON转储之前转换为字典，并成功地完成了转换，但由于数据量非常大，我想直接在PySpark<

浏览 14提问于2019-12-18得票数 1

回答已采纳

1回答

如何将表达式iloc从pandas转换为Pyspark* Dataframe？*

、、

如何将pandas表达式转换为pyspark，这似乎不起作用，然后将dataframe转换为数组？----+|2 | 5.0 | null| +-----+------+-----+df= df.iloc[-N:, :] #expression in pandas df = df.collect()[-N:][:] #

浏览 11提问于2021-02-14得票数 0

回答已采纳

2回答

翻转数据

、、

我有一个PySpark数据文件，类似于：|5 | 3 |3 |42 | 12..编辑2:示例代码：rdd=sc.parallelize([dicttest]).toDF() df

浏览 1提问于2018-05-28得票数 3

回答已采纳

2回答

在列中将字符串转换为ArrayType并爆炸

、、、

我有一个PySpark数据格式，其中列是字符串类型，而字符串是一个2D数组/列表，需要分解成行。但是，由于它不是Struct/Array，所以不可能直接使用explode。12,May,2018]]"), ('Bob',880,"Food","[[01,June,2018]]"), ('Bob',380,'Household',"[[16,June,2018]]")] df=

浏览 1提问于2018-02-19得票数 1

回答已采纳

1回答

如何将DataFrame groupby().agg()的结果转换为新的数据帧

、

我有一个包含(yy，mm，dd，value1，value2，...)的数据帧df工作正常，返回一个我可以‘可视化’的df1多索引对象，例如df1.info() 问:如何将这个df<

浏览 2提问于2020-05-23得票数 0

1回答

检查每个id火花的列中是否存在一个值

我有这样的数据我想要这样的输出我希望有一个列Has_Rose来表示每个id的Rose是否在分类列中。

浏览 2提问于2022-11-18得票数 0

回答已采纳

1回答

声明字段类型和实际字段类型不匹配时生成空值的PySpark* SQLContext.createDataFrame*

、、

在PySpark (v1.6.2)中，当使用指定的模式将RDD转换为DataFrame时，值类型与模式中声明的值类型不匹配的字段将转换为null。from pyspark import SparkContextfrom pyspark.sql.types import StructTypeStructType([ StructField("foo", D

浏览 27提问于2016-07-27得票数 0

回答已采纳

2回答

PySpark dataframe到python不带嵌套字典列表

、、、

|-- confidence: string (nullable = true)我正在尝试将其转换为Python，但是作为"words“的字典列表不会保留字典列表的格式。它们变成了元组的列表。我怎么才能避免呢？在火星雨中：转换为python dataframe： scra

浏览 4提问于2022-03-10得票数 0

1回答

PySpark --将行列表转换为数据帧

、、、

实际上，我要解决的问题是，获取PySpark数据的第一/最后N行，结果是数据。具体来说，我想做这样的事情：但是，因为head()返回一个行列表，所以我得到了以下错误：所以，我要么寻找将PySpark数据rows的前N行作为数据返回的方法，要么寻找将这些行列表</

浏览 1提问于2016-05-01得票数 7

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云