Pyspark:获取嵌套结构列的数据类型

Pyspark是一种用于大数据处理的开源分布式计算框架，基于Apache Spark构建而成。它提供了丰富的API和工具，用于处理和分析大规模的数据集。

在Pyspark中，获取嵌套结构列的数据类型可以通过使用StructField和DataType来实现。StructField表示嵌套结构列的字段，它包含了字段的名称、数据类型以及是否允许为空。DataType表示数据类型，可以是基本数据类型（如字符串、整数、浮点数等）或复杂数据类型（如数组、结构体等）。

以下是获取嵌套结构列数据类型的示例代码：

from pyspark.sql.types import StructType

# 定义一个嵌套结构的数据类型
data_type = StructType().add("name", "string").add("age", "integer").add("address", StructType().add("street", "string").add("city", "string"))

# 打印嵌套结构列的数据类型
print(data_type)

# 输出结果
# StructType(List(StructField(name,StringType,true), StructField(age,IntegerType,true), StructField(address,StructType(List(StructField(street,StringType,true), StructField(city,StringType,true)))), true))

上述代码中，我们首先导入了StructType类，并使用add方法定义了一个嵌套结构的数据类型。在定义数据类型时，我们可以通过add方法逐个添加字段及其对应的数据类型。最后，通过打印数据类型，我们可以看到嵌套结构列的数据类型。

在Pyspark中，使用嵌套结构列可以更方便地组织和操作复杂的数据。常见的应用场景包括处理JSON数据、处理复杂的数据结构以及构建层次化的数据模型。

对于Pyspark，腾讯云提供了弹性MapReduce（EMR）服务，它是一种基于云计算的大数据处理服务。EMR支持Pyspark和其他的Spark语言，提供了分布式计算、数据存储和数据分析等功能。您可以通过腾讯云EMR服务来运行Pyspark程序并处理大规模的数据集。

更多关于腾讯云EMR服务的信息，您可以访问以下链接：

请注意，以上仅为示例答案，具体的回答内容可以根据实际情况进行调整和补充。

运行spark.read.json时在json中找到重复列，即使没有重复列

、、、

在PySpark和Synapse数据流中，我遇到了非常奇怪的错误。我正在使用下面的查询读取JSON文件，但得到重复的列错误，即使没有重复的列。我可以使用其他工具和JSON验证器来读取它，也可以使用数据流，但不能在PySpark中读取。 PySpark查询如下： df = ( spark.read.option("multiline", "true") .options(encoding="UTF-8") .load( "abfss://<Container>]@<DIR>.

浏览 3提问于2021-11-25得票数 0

1回答

PYSPARK:-在不丢失null值的情况下分解dataframe中的数组：“DataFrame”对象没有属性“_get_object_id”

、、、

调用下面的对象时出错是在不丢失空值的情况下分解dataframe中的数组，但在调用列时我得到错误，说对象没有属性‘_ code.This _ object _id’。需要帮助，在其他方式调用列，可以工作。 from pyspark.sql import SparkSession from pyspark.sql import DataFrame from pyspark.sql import Row from pyspark.sql.types import ArrayType from pyspark.sql.functions import * from functools import

浏览 2提问于2018-07-05得票数 2

8回答

使用pyspark获取列的数据类型

、、

我们正在读取来自MongoDB Collection的数据。Collection列有两个不同的值(例如：(bson.Int64,int) (int,float) )。我正在尝试使用pyspark获取一个数据类型。我的问题是有些列有不同的数据类型。假设quantity和weight是列 quantity weight --------- -------- 12300 656 123566000000 789.6767 1238 56.22 345 23 34

浏览 42提问于2017-07-11得票数 62

回答已采纳

1回答

pyspark.sql.utils.AnalysisException: Parquet数据源不支持空数据类型

、、、、

我试图在PySpark中的dataframe PySpark中添加一个列。我试过的密码： import pyspark.sql.functions as F df1 = df1.withColumn("empty_column", F.lit(None)) 但我知道这个错误： pyspark.sql.utils.AnalysisException: Parquet数据源不支持空数据类型。有人能帮我吗？

浏览 23提问于2022-10-18得票数 3

回答已采纳

2回答

有没有办法在Pyspark中动态猜测模式？

、、、、

我在Databricks中有一个表，其中有一个列作为字符串字典，如下所示- +---+--------------------------------------------------------------------------------------------------------------+ |id |stringDictionary | +---+----------------------

浏览 23提问于2021-10-02得票数 3

回答已采纳

1回答

jOOQ & PostgreSQL:将从复杂jsonb中提取的嵌套json对象映射到自定义类型

、、、

我在PostgreSQL数据库中使用JSON对象。堆栈是Java11，Spring Boot 2+ with spring-boot-jooq-starter。我经常使用Binding和Converter将jsonb列反序列化为复杂类型。到目前一切尚好。现在，我有了一个更复杂的用例:我有一个查询，它将json对象的一部分(使用select子句中的jsonb_column::jsonb ->> nestedObject操作符)提取到我的记录的一个字段中。我希望将该记录映射到一个pojo，这样该记录的所有字段都将映射到pojo的字段(使用@Column注释)，并且特定的json嵌

浏览 17提问于2019-08-21得票数 2

1回答

如何使用Pyspark的模式从Pyspark数据帧创建hive表？

、

我已经使用以下代码创建了数据框： import pyspark from pyspark.sql import functions as F sc = pyspark.SparkContext() spark = pyspark.sql.SparkSession(sc) data = [('A', 'B', 1), ('A', 'B', 2), ('A', 'C', 1)] columns = ['Column1', 'Col

浏览 12提问于2020-06-15得票数 0

1回答

Spark 2.1 -类SpecificUnsafeProjection的常量池已超过64KB的JVM限制

、、

请原谅我的无知，因为我对pyspark和Spark还不熟悉。我正在将Spark从1.6.3升级到2.1，在使用pyspark运行我们的模型时遇到了问题。在运行抛出错误的python脚本时，我们所要做的就是读入一个JSON，并使用如下所示将其转换为DF df_read = sparkSession.read.json('path to json file') 在这个读取之后，我们在DF上执行一些操作，在列上运行一些UDF，然后最终希望写回JSON，然后JSON将被提取并写入Apache Phoenix表。当尝试在DF上执行任何终端操作时，例如show()或take()或任何类

浏览 8提问于2018-12-04得票数 0

1回答

如何读取星火中嵌套字段的值？

、、、

我所拥有的数据集中充满了嵌套字段。例如，data.take(1)的输出给出了9列，其中第4列( c4 )有3个子字段，c4的第1列有3个子字段，等等。格式看上去有点像 [A,B,C,[[d1,d2,d3],D2,D3],E,[F1,[f1,[f21,f22,f23],f3,f4],F3,F4],G,H,I] 我想要一个数组数据结构(然后可以展开成一个数组)。只是为了让数据看上去更清晰： A B C D -D1 -d1 -d2 -d3 -D2 -D3 E F -F1 -F2 -f1 -f2 -f21 -f22

浏览 0提问于2018-07-16得票数 0

回答已采纳

1回答

[雪花]：如何从JSON属性动态创建表

我有来自PowerBI事件日志的活动事件，有多种类型的事件活动，对于每种活动类型，日志包含不同的属性。 [{ "Activity": "ViewReport", "ReportID": "aaa-bbb-ccc", "WorkspaceID": "eee-fff-ddd"}, { "Activity": "DatasetRefresh", "DatasetID": "...", "IsSuccess": true}]

浏览 3提问于2022-05-21得票数 1

1回答

检查PySpark DataFrame是否嵌套的简单方法

、、、

有什么简单的方法来检查PySpark数据是否是嵌套的？我知道，您可以打印出模式并直观地确定数据是否是嵌套的。有没有一种可编程的检查方法？

浏览 4提问于2021-12-12得票数 0

回答已采纳

1回答

使用pyspark的扁平蜂巢结构列或avro文件

、、、

我有一个Hive表，它有一个struct数据类型列(下面的示例)。表是在avro文件上创建的。通过使用pyspark，如何将记录扁平化，以便在每个列中获得简单的数据类型值(而不是struct、数组或列表)来加载另一个Hive表。我可以使用Hive表或avro文件作为源。样本数据- 蜂巢列名: Contract_Data {"contract": {"contractcode":"CCC", unit: {"

浏览 0提问于2018-11-19得票数 0

4回答

在一辆火花放电机里修剪一下

、、

我有一个具有下面数据(所有列都有字符串数据类型)的Pyspark (原始Dataframe)。在我的用例中，我不确定输入数据中有哪些列。用户只需将dataframe的名称传递给我，并要求我修剪这个dataframe的所有列。典型数据文件中的数据如下所示： id Value Value1 1 "Text " "Avb" 2 1504 " Test" 3 1

浏览 2提问于2017-07-31得票数 0

1回答

`col.name`不能解析给定的输入列：[col.name] -col.name中的点

、

火花版本2.4.5 >> from pyspark.sql.functions import col >> data = [('a',), ('b',)] >> df = spark.createDataFrame(data, ("col.name",)) >> df.printSchema() root |-- col.name: string (nullable = true) 执行此行 >> df.withColumn("col.name.new&#

浏览 1提问于2020-11-26得票数 0

1回答

从mysql导入数据

、、、

我正在尝试将数据从mysql导入到pyspark。我能够将数据从mysql作为数据框架从pyspark获取。但是数据帧显示了daylightsavings时间内时间戳列的错误时间。下面是一个表的数据，该表在日光节省tTme期间获得了数据。 MySQL Data id Package_time System_time PACKAGE GROUP 1 3/12/2017 2:19:51 AM 2017-03-11 18:13:43.577 TEST_1 STATUS

浏览 7提问于2017-11-27得票数 1

回答已采纳

1回答

无法在PySpark项目中生成文档而不运行session

、、、、

我有一个Python包，其中有一个模块，其中包含要在PySpark设置中使用的UDF。在运行单元测试时，我已经想出了一种初始化和关闭Spark会话的方法，但是我在创建文档时遇到了问题。我使用的是，所以我只需运行make clean docs并遇到以下错误： File "/usr/local/lib/python3.9/site-packages/pyspark/sql/pandas/functions.py", line 432, in _create_pandas_udf return _create_udf(f, returnType, evalType)

浏览 8提问于2022-03-31得票数 1

回答已采纳

1回答

Pyspark:从列表的RDD创建spark数据帧，其中列表的一些元素是对象

、、、、

我正在尝试将pandas.DataFrame代码转换为等效的pyspark DataFrame。我有一个以下格式的RDD。 myRdd = [[1, 'a', {'a':[1, 2]}], [2, 'b', {'c': 1, 'd':3}], [3, 'c', {}]] columnNames = ['sl', 'name', 'params'] 内部列表中的第三个元素没有特定的结构。在pandas数据帧中，我可以

浏览 1提问于2018-04-07得票数 1

1回答

是否支持以DynamoDB格式存储对象(可能是Json格式)？

、、

在我用Swift开发的IOS移动应用程序中，我需要在Dynamodb中存储一些复杂的对象。到目前为止，我要做的是使用第三方支持将现有对象转换为Json字符串，并将其存储在Dynamodb列中作为字符串。当我想把它读回来时，我将DynamoDB列中的json字符串作为一个字符串读取，并将它转换回我想要的对象。当使用时，这是在Dynamodb中存储对象的最佳方法吗？对于在DynamoDB中存储json字符串还有其他支持吗？例：- class Mark { var Subject :String? var Score :Int } class Student:AWSDynamoDBObje

浏览 4提问于2016-01-27得票数 1

回答已采纳

1回答

TypeError: ufunc循环不支持没有可调用arccos方法的decimal.Decimal类型的参数0

、、

我正在尝试将Pyspark数据框架转换为一个熊猫数据框架。同时，计算long、lat值并将其更新到数据帧中。 def cos_max_longitude(radian_longitude, radian_latitude): return radian_longitude + np.arcsin(np.sin(r) / np.arccos(radian_latitude)) 错误堆栈： Traceback (most recent call last): File "/usr/local/src/spark/python/lib/pyspark.zip/pyspark/w

浏览 3提问于2019-12-06得票数 0

1回答

从亚马逊s3存储桶中读取csv文件时列数据类型发生变化

、、

我有两列的pyspark dataframe，后来我使用withColumn函数添加了第三列，将当前日期添加到所有现有行。 df.printSchema() Name --- string City ----string df.withColumn("created_date",current_date()) df.printSchema() Name --- string City --- string created_date --- Date df.show(2) Name City created_date Greg MN 2020-09-1

浏览 18提问于2020-09-14得票数 0

3回答

火花csv封装中的inferSchema

、

我正试图通过启用inferSchema来将csv文件读入火花df，但随后无法获得fv_df.columns。下面是错误消息 >>> fv_df = spark.read.option("header", "true").option("delimiter", "\t").csv('/home/h212957/FacilityView/datapoints_FV.csv', inferSchema=True) >>> fv_df.columns Traceback (most re

浏览 12提问于2017-04-26得票数 0

1回答

Pyspark:获取嵌套结构列的数据类型

、、、

我目前正在处理一些相当复杂的json文件，我应该将它们转换并写入增量表。问题是，当涉及到列的数据类型时，每个文件都有细微的差异。有人能给我解释一下检索嵌套结构列的数据类型的一般方法吗？在互联网上，我只能找到如何对它们做选择：https://sparkbyexamples.com/pyspark/pyspark-select-nested-struct-columns/ 如果我有这样的格式： ? 我怎样才能获得数据类型，比如说，姓氏？编辑: Json文件当然已经写在dataframe中，我的问题是如何查询dataframe以检索数据类型非常感谢!

浏览 42提问于2021-10-22得票数 0

2回答

将PySpark数据写入BigQuery“数字”数据类型

、、、、

为了简单起见，我在BigQuery中有一个表，其中有一个类型为“数字”的字段。当我尝试用一列编写一个NullPointerException.数据帧时，它会继续引发PySpark我尝试将pyspark列转换为int、float、string，甚至编码它，但它一直在抛出NullPointerException.。即使在花了5到6个小时之后，我也无法自己或在互联网上弄清楚这里的问题是什么，以及将它映射到BigQuery数字列类型的确切的列类型是什么。任何帮助或方向都会有很大帮助。提前谢谢。

浏览 5提问于2022-04-28得票数 0

3回答

修改Spark dataframe中的结构列

、、、、

我有一个PySpark dataframe，其中包含一个列"student“，如下所示： "student" : { "name" : "kaleem", "rollno" : "12" } 在dataframe中，这方面的架构是： structType(List( name: String, rollno: String)) 我需要将该列修改为 "student" : { "student_details" : { "

浏览 3提问于2020-05-27得票数 2

回答已采纳

1回答

如何在pyspark中找到列表中最常用的元素？

、、

我有一个包含两列的pyspark dataframe，ID和Elements。"Elements“列中有list元素。它看起来像这样， ID | Elements _______________________________________ X |[Element5, Element1, Element5] Y |[Element Unknown, Element Unknown, Element_Z] 我想用‘element’列中最频繁的元素组成一个列。输出应如下所示： ID | Elements

浏览 6提问于2021-10-07得票数 1

1回答

PySpark -将列合并为包含列表的列

我有一个3列的星火数据。如何使用PySpark将第2和第3列“连接”到包含列表的单个列中？如果帮助，列1是唯一的键，没有重复。初步数据： | Col1 | Col2 | Col3 | ------------------------ | 11 | 'a' | 13 | | 21 | 'b' | 23 | 由此产生的数据文件： | Col1 | NewCol2 | -------------------- | 11 | ['a', 13] | | 21 | ['b', 23] | 我

浏览 7提问于2022-08-19得票数 0

回答已采纳

1回答

Spark:不支持变量数据类型

、、、

在Pyspark中从不同数据类型的SQL Server中提取数据时。我得到了一个SQLServerException：“不支持变量数据类型” 请对任何解决方法提供建议。

浏览 2提问于2016-11-24得票数 1

2回答

在Pyspark中创建JSON

、、

我在PySpark中有一个DF |id |Name |Age | |-- |------ |--- | |1 |John |31 | |2 |Sam |34 | |3 |Chris |28 | 我需要换到DF下面， |id | Name | Age | | ------ | ---------------- | ----------- | |{'v':1} | {'v':'John'} | {'v':31}

浏览 2提问于2021-03-02得票数 0

回答已采纳

2回答

如何访问由Row创建Dataframe的DataFrame列

、

我对火种很陌生希望从由Row创建的DataFrame中访问列。请参阅下面我的.py文件中的代码它抛出错误AttributeError：'DataFrame‘对象没有属性'product’ import findspark findspark.init("/opt/spark") from pyspark.sql import SparkSession from pyspark.sql import Row from pyspark.sql import SQLContext productRevenue = Row("product

浏览 2提问于2020-04-13得票数 0

回答已采纳

1回答

用pyspark将json字符串转换为整数

、、、、

我希望使用pyspark将字符串对象从json文件转换为整数。 df1.select(df1["`result.price`"]).dtypes Out[15]: [('result.price', 'string')] df1=df1.withColumn(df1.select(df1["`result.price`"]),F.col(df1.select(df1["`result.price`"])).cast(T.IntegerType())) 'DataFrame' object ha

浏览 3提问于2022-02-23得票数 0

1回答

在一列中存储不同的PySpark模式

、、、

我尝试从PySpark中的REST中提取不同的表。我跟踪了这个。我想要将不同的模式存储在一列中的中。下面是一个示例： import pyspark.sql.functions as F from pyspark.sql import Row from pyspark.sql.types import * A = [{"TableName": "Table1", "Schema": StructType([StructField("a", StringType()), StructField("b", Intege

浏览 16提问于2022-08-23得票数 0

回答已采纳

1回答

用map并行化for循环，用pyspark并行化reduce

、、

在我的应用程序中，我从S3上不同位置的数据创建不同的数据帧，然后尝试将这些数据帧合并为单个数据帧。现在，我正在使用一个for循环。但我有一种感觉，使用pyspark中的map和reduce函数可以更有效地完成这项工作。下面是我的代码： from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext, GroupedData import pandas as pd from datetime import datetime sparkConf = SparkConf().setAppName(

浏览 0提问于2016-08-24得票数 3

1回答

将rfc 2822列转换为类型标记列

、、、

我正在尝试将rfc2822日期时间列转换为时间戳列。如果我正在处理数据文件之外的变量，它就工作了。但是在数据文件中，我会收到一条错误消息。我的进口品： from pyspark.sql.types import * from pyspark.sql.column import * from pyspark.sql.functions import * from email.utils import parsedate_to_datetime 在dataframe之外工作--这是代码： datestr = "Thu Sep 12 2019 15:58:30 GMT-0500 (hora

浏览 1提问于2019-11-23得票数 1

1回答

将Pyspark隐藏到具有实际值的列表中

、

我正在尝试将Pyspark列转换为一个值列表(而不是对象)。现在，我的最终目标是使用它作为过滤另一个数据的过滤器。我尝试了以下几点： X = df.select("columnname").collect() 但是当我用它来过滤时，我无法。 Y = dtaframe.filter(~dtaframe.columnname.isin(X))) 另外，尝试转换为numpy Array和聚合collect_list() df.groupby('columnname').agg(collect_list(df["columnname"]) 请给我建议

浏览 2提问于2020-04-22得票数 0

1回答

如何用火花放电爆炸()来爆炸结构

、、、、

如何将以下JSON转换为后面的关系行？我所坚持的部分是，由于类型不匹配，pyspark explode()函数抛出了一个异常。我还没有找到一种将数据强制转换为适当格式的方法，这样我就可以在source对象的sample_json键中从每个对象中创建行。 JSON输入 sample_json = """ { "dc_id": "dc-101", "source": { "sensor-igauge": { "id": 10, "ip": "

浏览 3提问于2021-02-10得票数 2

回答已采纳

1回答

删除pyspark中的嵌套列

、、、、

浏览 20提问于2020-06-15得票数 0

回答已采纳

1回答

验证星火数据中的列名和数据类型

、、、、

我想使用python中的pyspark读取.csv文件，但我只想为每个列提供类型，并对列名(而不是模式中的名称)使用标头(来自.csv文件)。有人知道怎么做吗？

浏览 6提问于2021-04-14得票数 1

回答已采纳

1回答

星火DataFrame如何区分不同的VectorUDT对象？

、、、、

我正在尝试理解DataFrame列类型。当然，DataFrame不是一个物化的对象，它只是一组Spark的指令，将来要转换成代码。但我认为，这个类型列表代表了在执行操作时JVM中可能出现的对象类型。 import pyspark import pyspark.sql.types as T import pyspark.sql.functions as F data = [0, 3, 0, 4] d = {} d['DenseVector'] = pyspark.ml.linalg.DenseVector(data) d['old_DenseVector'] =

浏览 1提问于2016-07-31得票数 7

回答已采纳

1回答

PySpark使用另一列中的值查询一个列名

、、、、

Input_pyspark_dataframe: id name collection student.1.price student.2.price student.3.price 111 aaa 1 100 999 232 222 bbb 2 200 888 656 333 ccc 1 300 777 454 444 dd

浏览 0提问于2020-08-20得票数 0

2回答

将文件读取并附加到spark数据文件中

我已经创建了一个空的dataframe，并开始添加它，通过读取每个文件。但其中一个文件的列数比前一个文件多。如何仅为所有其他文件选择第一个文件中的列？ from pyspark.sql import SparkSession from pyspark.sql import SQLContext from pyspark.sql.types import StructType import os, glob spark = SparkSession.builder.\ config("spark.jars.packages","saurf

浏览 1提问于2019-09-06得票数 3

回答已采纳

2回答

熊猫udf分裂串火花放电阵列

、、、、

我有下表 id | country_mapping -------------------- 1 | {"GBR/bla": 1, "USA/bla": 2} 我想要创建一个列，其中包含以下内容 id | source_countries -------------------- 1 | ["GBR", "USA"] 我需要通过熊猫的udf来做这件事。我创建了以下内容 import pyspark.sql.functions as F @F.pandas_udf("string") def fun

浏览 5提问于2021-10-28得票数 0

回答已采纳

1回答

在pyspark中对RDD的每一行进行排序

、、

我是pyspark的初学者，所以我无法解决问题。我有一个RDD，如下所示 results = [('alice', 'charlie'), ('charlie', 'alice'), ('charlie', 'doris'),('doris', 'charlie')] result = sc.parallelize(result) result.collect() [('charlie', 'doris'), ('charli

浏览 6提问于2019-08-18得票数 0

1回答

Haskell:函数应该接收多少类型？并避免完全的“重建”

、、

我得到了以下数据类型： data PointPlus = PointPlus { coords :: Point , velocity :: Vector } deriving (Eq) data BodyGeo = BodyGeo { pointPlus :: PointPlus , size :: Point } deriving (Eq) data Body = Body { geo :: BodyGeo , pict :: Color } deriving (Eq) 它是游戏中角色、敌人、物体等的基本数据类型(

浏览 0提问于2012-06-10得票数 10

回答已采纳

2回答

pyspark dataframes:为什么我可以选择一些嵌套字段，而不能选择其他字段？

、、、、

我正在尝试编写一些代码，使用Python 3.9.1中的pyspark (3.0.1)将JSON解嵌到Dataframe中。我有一些虚拟数据，其模式如下： data.printSchema() root |-- recordID: string (nullable = true) |-- customerDetails: struct (nullable = true) | |-- name: string (nullable = true) | |-- dob: string (nullable = true) |-- familyMembers: array (n

浏览 38提问于2021-02-05得票数 2

回答已采纳

1回答

PYSpark数据帧架构显示每个列的字符串。

、、

我正在从下面的代码段读取CSV文件。 df_pyspark = spark.read.csv("sample_data.csv") df_pyspark 当我试图打印数据帧时，它的输出如下所示： DataFrame[_c0: string, _c1: string, _c2: string, _c3: string, _c4: string, _c5: string] 对于每一列，dataType都显示“String”，尽管列包含不同的数据类型，如下所示： df_pyspark.show() |_c0| _c1| _c2|

浏览 5提问于2022-11-02得票数 1

回答已采纳

1回答

选择一行并根据最大值显示列名。

、、、

我有一个Pyspark数据框架 | ID|colA|colB|colC| +---+----+----+----+ |ID1| 3| 5| 6| |ID2| 4| 12| 7| |ID3| 2| 20| 22| +---+----+----+----+ 我要选择行ID3并选择三列的最大值，然后显示最大值的列名。因此，如果我为行ID3选择三列的最大值，它应该返回如下： |colC| +----+ |22 | +----+ 因此，我的问题是，我们如何选择一行，并选择一个列名根据最大列值的选定行从吡火花DataFrame？

浏览 0提问于2021-02-20得票数 0

回答已采纳

1回答

在PySpark DataFrames中，为什么setitem没有完全实现？

、、、

在PySpark中，我们不能使用传统的熊猫或R风格的符号来根据DataFrame中的旧列来制作新的列。例如，假设我试图连接两列： import pyspark.sql.functions as F df['newcol'] = F.concat(df['col_1'], df['col_2']) 结果： TypeError: 'DataFrame' object does not support item assignment 相反，这样做的实现方法是 df = df.withColumn('newcol', F.

浏览 1提问于2016-07-28得票数 1

回答已采纳

1回答

带有Json属性的Dynamodb索引

我指的是线程在我的表中有一个名为的列。这是在JSON中，该文件的结构如下所示： { "config": "aasdfds", "state":"PROCESSED", "value" "asfdasasdf" } AWS文档说，我可以创建一个具有顶级JSON属性的索引。不过，我不知道该怎么做。在创建索引时，应该将分区键指定为data.state，然后在代码中使用值设置为PROCESSED的列data.state的查询，还是应该将分区键创建为数据，然后在代码中查找列data< code >

浏览 3提问于2017-04-28得票数 1

1回答

熊猫将函数替代应用于pyspark (希望将整型数据类型列转换为列表数据类型)

、、

要将整数数据类型列转换为列表数据类型给定DataFrame a b 0 9 2 1 9 3 想要转换为 a b 0 9 [2] 1 9 [3] 熊猫溶液 import pandas as pd df = pd.DataFrame({"a":[1,2],"b":[3,4]}) df["b"] = df["b"].apply(lambda row: [row]) 我怎样才能在火花放电中实现同样的目标？我尝试了一种天真的方式 from pyspark.sql.types import Intege

浏览 5提问于2021-12-02得票数 0

回答已采纳

2回答

Python -使用文字字符串传递操作符？

、、、

我有一个列、名称(键)及其数据类型(值)的字典。数据类型是文字字符串，我试图将我的PySpark df中的列转换为定义的数据类型，即 for k, v in dict.items(): df.withColumn(f'{k}', col(f'{k}').cast(v)) 显然，由于'ByteType()'不完全等于ByteType()，所以上面的内容不起作用。有人有什么创造性的解决办法吗？

浏览 5提问于2022-05-23得票数 -1