如何在PySpark中转换数据框列中的JSON字符串？

在PySpark中，可以使用from_json函数将数据框列中的JSON字符串转换为结构化的数据。from_json函数需要两个参数：要转换的JSON字符串列和目标数据结构的模式。以下是一个示例代码：

from pyspark.sql import SparkSession
from pyspark.sql.functions import from_json
from pyspark.sql.types import StructType, StructField, StringType

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 创建示例数据框
data = [("John", '{"age": 30, "city": "New York"}'),
        ("Alice", '{"age": 25, "city": "San Francisco"}')]
df = spark.createDataFrame(data, ["name", "json_string"])

# 定义目标数据结构的模式
schema = StructType([
    StructField("age", StringType()),
    StructField("city", StringType())
])

# 使用from_json函数转换JSON字符串列
df = df.withColumn("json_struct", from_json(df.json_string, schema))

# 显示转换后的数据框
df.show(truncate=False)

输出结果如下：

+-----+-------------------+----------------+
|name |json_string        |json_struct     |
+-----+-------------------+----------------+
|John |{"age": 30, "city": "New York"}|{30, New York}  |
|Alice|{"age": 25, "city": "San Francisco"}|{25, San Francisco}|
+-----+-------------------+----------------+

在上述示例中，我们首先创建了一个包含姓名和JSON字符串列的数据框。然后，我们定义了目标数据结构的模式，其中包含了"age"和"city"两个字段。接下来，我们使用from_json函数将JSON字符串列转换为结构化的数据，并将结果存储在新的列"json_struct"中。最后，我们显示了转换后的数据框。

在PySpark中转换数据框列中的JSON字符串，可以帮助我们将非结构化的数据转换为结构化的数据，方便后续的数据分析和处理。这在处理日志数据、传感器数据等场景中非常有用。

腾讯云提供了一系列与大数据处理相关的产品，例如TencentDB for TDSQL、TencentDB for Redis、TencentDB for MongoDB等，可以帮助用户在云上进行数据存储和分析。您可以通过访问Tencent Cloud了解更多相关产品和服务。

Spark Data Frames -检查列是否为整型

、、

我正在尝试找出spark数据框中的列是什么数据类型，并基于该定义操作列。这是我到目前为止所知道的： import pyspark from pyspark.sql import SparkSession spark = SparkSession.builder.appName('MyApp').getOrCreate() df = spark.read.csv('Path To csv File',inferSchema=True,header=True) for x in df.columns: if type(x) == 'integer

浏览 8提问于2018-04-12得票数 1

3回答

如何在Pyspark中替换dataframe的所有空值

、、

我在pyspark中有一个超过300列的数据框架。在这些列中，有一些列的值为null。例如： Column_1 column_2 null null null null 234 null 125 124 365 187 and so on 当我想对column_1求和时，我得到的结果是一个空值，而不是724。现在，我想用空格替换数据框所有列中的null。所以当我尝试对这些列求和时，我不会得到空值，但我会得到一个数值。我们如何在pyspark中实现这一点呢？

浏览 1提问于2017-02-18得票数 56

回答已采纳

2回答

计算时间戳和字符串在pyspark中的月份差异

、

我在databricks中使用pyspark和一个JSON文件来清理数据。eval括号中的表达式来自JSON文件。我面临的问题之一是操纵timestamps/string。我正在尝试找出时间戳列和单个日期(这是一个字符串)之间的月份差异。请参阅下面的代码。 import pyspark.sql.functions as F df2 = df2.withColumn('test', eval("months_between( F.to_date(F.col('period_name')), lit('31/03/2019'))"

浏览 25提问于2019-11-07得票数 1

回答已采纳

1回答

使用map函数将Spark Dataframe转换为RDD

、、

我正在尝试将spark数据框中的列拆分为多个值。因此，我分隔了要拆分的列，并检查了其类型： I: type(TopicModelVectorSplit) O: pyspark.sql.dataframe.DataFrame 当我使用以下命令分割字符串时： TopicModelVectorSplit = TopicModelVector.select('TopicModelVector').map(lambda line: line.text.split()) 它会转换成流水线的RDD，而这些是不可能使用的。 I: type(TopicModelVectorSplit) O: p

浏览 0提问于2016-06-22得票数 0

2回答

以每列为关键字将PySpark数据帧转换为JSON

、、、

我正在研究PySpark。我有一个数据框，我需要将其转储为JSON文件，但JSON文件应具有以下格式，例如- {"Column 1": [9202, 9202, 9202, ....], "Column 2": ["FEMALE", "No matching concept", "MALE", ....]} 因此，每列应该有一个键，相应的值应该包含该列中的所有值的列表我尝试将其转换为Pandas数据帧，然后在将其作为JSON转储之前转换为字典，并成功地完成了转换，但由于数据量非常大，我想直接在PySpark数据

浏览 14提问于2019-12-18得票数 1

回答已采纳

1回答

如何重命名所有列，在pyspark中创建dataframe之后，如何根据模式/从csv文件中读取数据类型来转换数据类型

、

在pyspark中创建示例数据 from pyspark.sql.types import * from pyspark.sql.types import StructField from pyspark.sql import types testdata = [("aaaa",1,50.0,"05-APR-2020"), ("bbbb",2,100.0,"06-APR-2020")] dataschema = types.StructType([ typ

浏览 1提问于2020-05-04得票数 0

回答已采纳

1回答

将向量列添加到吡咯DataFrame中

、、、

如何将Vectors.dense列添加到pyspark中？ import pandas as pd from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.ml.linalg import DenseVector py_df = pd.DataFrame.from_dict({"time": [59., 115., 156., 421.], "event": [1, 1, 1, 0]}) sc = SparkContext(master="loc

浏览 1提问于2018-04-14得票数 1

回答已采纳

2回答

将字符串转换为pyspark.sql.types.StructType pyspark

、

我试图在pyspark中创建空的dataframe，在pyspark中，我从外部JSON文件传递scehma，但是Json不允许我指定struct类型，所以我提到它是string。json文件： "OptionalEvents" : { "Event1": "StructType([StructField('id',StringType(), True),StructField('time',StringType(), True),StructField('ts',StringTyp

浏览 39提问于2021-08-23得票数 1

回答已采纳

2回答

是否可以使用spark data frame (pyspark)中的d-type找到哪一列是date？

、、、、

我有一个数据框： df = Name Date_1 Date_2 Roll.no kiram 22-01-2020 23-01-2020 20 krish 24-02-2020 05-01-2020 25 verm 09-01-2020 25-02-2020 24 kirn 14-12-2019 25-01-2021 56 现在我想使用d-types.查找date列，因为我们知道在pyspark中，date被视为strings，我们如何将date列的d类型描述为date类型而不是string类型？这是因为我只想在日期列上应用

浏览 18提问于2021-06-08得票数 0

1回答

如何从pyspark数据帧创建JSON结构？

、、、、

我正在尝试从pyspark数据帧创建一个JSON结构。我的数据框中有以下列- batch_id、batch_run_id、table_name、column_name、column_datatype、last_refresh_time、refresh_frequency、owner 我希望它在JSON结构下面- { "GeneralInfo": { "DataSetID": "xxxx1234Abcsd", "Owner" : ["test1@email.com", "test2@ema

浏览 21提问于2021-08-10得票数 0

回答已采纳

1回答

从Pyspark Dataframe解析JSON字符串

、、、、

我有一个嵌套的JSON字典，我需要将其转换为spark dataframe。此JSON字典显示在数据框列中。我一直在尝试使用"from_json“和"get_json_object”来解析dataframe列中存在的字典，但一直无法读取数据。以下是我一直在尝试读取的源数据的最小片段： {"value": "\u0000\u0000\u0000\u0000/{\"context\":\"data\"}"} 我需要提取嵌套的dict值。我使用下面的代码清理数据并将其读取到数据帧中 from pyspark.sql.f

浏览 36提问于2021-04-01得票数 1

回答已采纳

1回答

如何将列分割成标号和化石粉中的特性？

、、、、

我正在学习PySpark。在中，有一个例子： from pyspark.ml.linalg import Vectors from pyspark.ml.classification import LogisticRegression # Prepare training data from a list of (label, features) tuples. training = spark.createDataFrame([ (1.0, Vectors.dense([0.0, 1.1, 0.1])), (0.0, Vectors.dense([2.0, 1.0, -1.

浏览 0提问于2019-02-13得票数 1

回答已采纳

3回答

无法将JSON解析为Javascript对象

、、

我有一个HTML框： <span>Select depatament</span><span> <select id="department" onchange="EnableSlaveSelectBox(this)" data-slaveelaments='{"a": 1, "b": "2"}'> <option selected disabled>-Select-</option> </s

浏览 4提问于2015-05-11得票数 0

回答已采纳

1回答

阅读json从“运动”到“火种”时的问题

、、

我正在尝试读取从PySpark.My到JSON的流JSON数据，如下所示： {'installmentNo': '10', 'loanId': '1'} 我已经指定了模式，但是当spark读取数据时，我会得到'null‘。下面是代码片段。 from pyspark.sql.types import * from pyspark.sql.functions import from_json fields = [ StructField("installmentNo", IntegerType(), T

浏览 0提问于2018-09-21得票数 0

回答已采纳

1回答

如何在pyspark中读取json的字符串(json字符串有双引号

、、、

我有一个这样的csv文件： "request" "{""CustomerId"":""1"",""EffectiveTime"":""2021-07-30T12:00""}" "{""CustomerId"":""2"",""EffectiveTime"":""2021-07-30T13:00""}&

浏览 45提问于2021-09-22得票数 0

1回答

如何在pyspark中读取多级json？

、

**Json Structure is -:** aa.json [[{"foo":"test1"},{"foo1":"test21"}], [{"foo":"test2"},{"foo1":"test22"}], [{"foo":"test3"},{"foo1":"test23"}]] 读取DataFrame的代码： from pyspark.sql import SQLContext sqlCont

浏览 0提问于2018-12-19得票数 2

1回答

Pyspark分解嵌套列表

、

我有以下数据框，我想分解值列，以便每个值都在单独的列中： id | values ----------------------- 1 | '[[532,969020406,89],[216,969100125,23],[169,39356140000,72],[399,14407358500,188],[377,13761937166.6667,24]]' 2 | '[[532,969020406,89]]' 请注意，values列下的列表可以有不同的长度，并且它们是字符串数据类型。所需的表应如下所示： id | v11 | v12 | v13 | v21

浏览 19提问于2020-09-30得票数 1

回答已采纳

5回答

如何将dataframe的所有列转换为字符串

、、

我有一个混合类型的数据帧。我正在使用spark.sql('select a,b,c from table')命令从hive表中读取此数据帧。一些列是int、bigint、double，而其他列是string。总共有32列。在pyspark中有什么方法可以将数据框中的所有列转换为字符串类型吗？

浏览 149提问于2017-02-07得票数 12

回答已采纳

1回答

如何使用pyspark修改托管增量表的列数据类型？

、、、

如何使用pyspark根据输入参数更改列数据类型 from pyspark.sql.types import IntegerType,BooleanType,DateType from pyspark.sql.functions import col Column_Name="EFFECTIVE_DATE" df=spark.sql(f"select * from TableA") df.withColumn({Column_Name},col({Column_Name}).cast(DateType())

浏览 11提问于2021-11-10得票数 1

1回答

使用pyspark解析JSON时不工作的嵌套动态模式

、、

我正在尝试从嵌套的JSON (具有动态模式)中提取某些参数，并使用pyspark生成火花数据。我的代码非常适合于第1级(key:value)，但对于作为嵌套JSON一部分的每一对(key:value)都无法获得独立的列。 JSON模式示例注意-这不是确切的模式。它只是给出了模式的嵌套性质的概念。 { "tweet": { "text": "RT @author original message" "user": { "screen_name": "Retweete

浏览 2提问于2019-04-28得票数 0

回答已采纳

1回答

如何在pyspark RDD中找到整列数据的总和？

、、、

我有制表符分隔的文本数据与5列，我需要找出第4列的总和。 # Find the total sales values: from pyspark import SparkContext, SparkConf if __name__ == '__main__': conf = SparkConf().setAppName("sales").setMaster("local[2]") sc = SparkContext(conf=conf) sales = sc.textFile("C:\\Users\\De

浏览 30提问于2020-06-20得票数 0

1回答

如何选择Pyspark列并将其作为新行添加到数据框中？

、、、

我有一个JSON文件，我想做一些ETL任务。我想提取一列，并将其值作为新行附加到数据框中。例如，如果我有一个这样的数据框： ----------------------------------------------------------------- |name | last | father | ----------------------------------------------------------------- | daniel | allardice | {'name'

浏览 18提问于2019-12-29得票数 0

回答已采纳

2回答

在Spark dataframe中创建不带毫秒部分的时间戳列

、、、

我正尝试在Pyspark的数据框中创建一个名为load_time_stamp的新列，它应该只包含截止到几秒的日期和时间，而不应该包含毫秒。我已经写了下面的代码来做同样的事情，但是在这个过程中，一个新的列是用null值创建的，而不是我期望的时间戳值。 from pyspark.sql import functions as F x.withColumn("load_time_stamp", F.to_timestamp(F.substring(F.current_timestamp(), 0, 19), "yyyy-MM-dd'T'HH:mm:ss&#

浏览 0提问于2021-02-22得票数 1

1回答

与Pandas结果相比，dataframe中唯一值的Pyspark数量不同

、、、、

我有400万行的大型数据帧。其中一列是名为"name“的变量。当我通过：df['name].nunique()检查Pandas中唯一值的数量时，我得到了一个与Pyspark df.select("name").distinct().show()不同的答案(在Pandas中大约为1800，在Pyspark中为350 )。这怎么可能呢？这是一个数据分区的问题吗？编辑:数据框中的name记录如下: name-{number}，例如: name-1，name-2等。在熊猫中： df['name'] = df['name'].str.

浏览 0提问于2020-05-24得票数 0

1回答

将字符串列转换为json并在pyspark中进行解析。

、、、

我的数据看起来就像 |ID|Notes| --------------- |1|'{"Country":"USA","Count":"1000"}'| |2|{"Country":"USA","Count":"1000"}| ID : int Notes : string 当我使用from_json解析列Notes时，它会给出所有的Null值。我需要帮助将本列Notes解析为pyspark中的列

浏览 7提问于2022-05-20得票数 2

1回答

从PySpark中的复杂列中提取值

、、

我有一个PySpark数据帧，它有一个复杂的列，请参考下列值： ID value 1 [{"label":"animal","value":"cat"},{"label":null,"value":"George"}] 我想在PySpark dataframe中添加一个新列，它基本上将它转换为一个字符串列表。如果Label为null，则字符串应包含value；如果label不为null，则string应为label:value。因此，对于上面的示例数据帧，输出应如下所示： ID

浏览 0提问于2021-02-09得票数 0

3回答

在将JSON文件读入PySpark DataFrame之前从JSON文件中过滤垃圾

、、

我有以下文件，它应该是一个JSON文件，但是它在实际的JSON内容之前有一个字符串(它们被一个选项卡隔开！)： string_smth\t{id:"str", num:0} string_smth1\t{id:"str2", num:1} string_smth2\t{id:"str3", num:2} string_smth3\t{id:"str4", num:3} 对所有列执行以下操作返回null： import pyspark.sql from pyspark.sql.types import * schema = Str

浏览 0提问于2018-02-16得票数 1

回答已采纳

1回答

Pyspark数据帧过滤语法错误

、

我正在使用Pyspark版本1.6处理Pyspark数据帧。在将此数据框导出到.CSV文件之前，我需要根据特定条件对特定列使用LIKE和OR运算符过滤数据。为了向您介绍我到目前为止所做的工作，我从多个.JSON文件创建了初始数据帧。此数据框已子集，因此仅包含所需的列。然后创建了一个sqlContext临时表。到目前为止，我已经尝试了两种不同的方法，使用sqlContext和使用Pyspark方法。 sqlContext方法： df_filtered = sqlContext.sql("SELECT * from df WHERE text LIKE '#abc' OR

浏览 0提问于2017-07-27得票数 0

回答已采纳

1回答

在Foundry中，如何解析具有JSON响应的dataframe列

我正在尝试使用外部API将JIRA数据引入Foundry。当它通过Magritte传入时，数据被存储在AVRO中，并且有一个名为response的列。response列包含如下所示的数据... [{"id":"customfield_5","name":"test","custom":true,"orderable":true,"navigable":true,"searchable":true,"clauseNames":["cf[5]&#

浏览 9提问于2021-08-27得票数 2

回答已采纳

2回答

如何在PySpark中将df列[JSON_Format]转换为多个列？

、、、、

我从Kafka那里得到了JSON格式的数据，并在PySpark中以DataFrame的形式读取了这些数据。在我从Kafka获得数据后，它显示为DataFrame格式： DataFrame[value: string] 但是，该值包含JSON / DICT格式。打印语句和返回： def print_row(row): print(row) pass testing.writeStream.foreach(print_row).start() Row(value='{col_1 =80.0, timestamp=2020-01-13T08:58:58.164Z}&#

浏览 24提问于2020-01-13得票数 0

2回答

PySpark -逐行转换为JSON

、、、

我有一个非常大的pyspark数据框架。我需要为每一行将数据帧转换为JSON格式的字符串，然后将该字符串发布到Kafka主题。我最初使用的是以下代码。 for message in df.toJSON().collect(): kafkaClient.send(message) 但是，数据帧非常大，因此在尝试collect()时会失败。我在考虑使用UDF，因为它逐行处理它。 from pyspark.sql.functions import udf, struct def get_row(row): json = row.toJSON() kafkaCli

浏览 3提问于2018-01-31得票数 7

回答已采纳

1回答

数据库时间戳格式-如何找到准确的格式？

、、

当我尝试通过show()和display( dataframe )显示来自pyspark dataframe的date列时，这些数据列的格式是不同的。现在，我们如何得出数据帧中存在哪种日期格式？显示: 2018-02-15T06:47:19.000+0000 演出时间: 2018-02-15 06:47:19 ?

浏览 15提问于2021-04-23得票数 2

1回答

Pyspark句柄从字符串转换为十进制

、

我是在Databricks中使用Pyspark的新手，所以这就是为什么我要与以下内容斗争的原因:我有一个dataframe，它有数据类型为string的列。一个例子(见下图)是列netto_resultaat。要求将此列和其他与财务相关的列从字符串更改为小数。这是因为我要导出Azure SQL数据库中的架构和数据。我尝试了以下几种方法：从pyspark.sql.functions导入列从pyspark.sql.types导入DecimalType newouterjoindffinal = newouterjoindf.withColumn("netto_resultaat&#

浏览 23提问于2021-10-25得票数 0

回答已采纳

4回答

如何在多列上执行udfs -动态

、、、、

我有30列，比如DPF_1、DPF_2、DPF_3......DPF_30，我需要在这些列上应用数据帧。所有30列数据类型都是String。我的要求是将这30列中的所有"Na“值转换为"null”。我尝试过在下面的代码，但它不是动态的。 def udf_A(x:StringType()): if x == "Na": return "null" else:return x udf_B = udf(udf_A, StringType()) df.withColumn("DPF_1" udf_B("DPF_

浏览 4提问于2018-01-16得票数 2

回答已采纳

1回答

如何将spark dataframe中的String类型列转换为Pandas dataframe中的String类型列

、、

我有一个从熊猫数据帧创建的样本spark数据帧- from pyspark.sql import SparkSession import pyspark.sql.functions as F from pyspark.sql.types import StringType from pyspark.sql.types import * import pandas as pd spark = SparkSession \ .builder \ .appName("Python Spark SQL basic example") \ .config(&

浏览 3提问于2020-09-09得票数 0

1回答

如何在pyspark中添加带有字符串常量的新列

、

如何将字符串值添加到pyspark中的列。使用withColumn("status"，"online")会出现错误我在这里使用的是Spark 1.6

浏览 1提问于2017-05-05得票数 2

3回答

如何在PowerApps中解析JSON？

、、、、

我已经将JSON数据存储在SharePoint online列表、多行和文本列中。我需要在Power Apps表单中更新该列。有没有人可以教我如何在不使用Flow的情况下解析/串行化Power Apps中的JSON数据？谢谢和问候，认识一下

浏览 22提问于2021-01-04得票数 0

1回答

如何在PySpark中将结构列作为字符串保存到CSV/TSV中？

、

我见过很多类似的问题被问了很多次，但是对于一些应该很容易的问题，没有明确的答案。如何在PySpark中将结构列保存到CSV (tsv实际)？我想序列化它并将其保存为JSON。我有一个dataframe，它包含以下模式，我从拼花中读到它： timestamp:long timezoneOffset:string dayInterval:integer speed:double heading:double ignitionStatus:integer segmentId:string pointMM:struct mmResult:array element:stru

浏览 2提问于2022-09-20得票数 1

回答已采纳

1回答

如何在两个数据帧之间高效地匹配字符串

、、

浏览 14提问于2020-04-12得票数 1

回答已采纳

2回答

如何在Pyspark中将阿拉伯文本(٠٤-٢٥-٢٠٢١)中的日期时间解析为英语日期

、、

我正在读取包含一些日期列的JSON文件。问题是某些日期列包含阿拉伯语/乌尔都语文本的日期： ٠٤-٢٥-٢٠٢١ 我想把它转换成yyyy-mm-dd格式的英文日期。如何在Pyspark中实现这一点？

浏览 40提问于2021-09-11得票数 5

回答已采纳

1回答

Json响应分别包含列和行。

、

我的json响应分别包含列和行。如何解析吡咯烷酮中的后续数据(将列映射为行) 响应如下: Response =“{”列“{”：{ "id"：{ "type"："Numeric"，"nullable"：false }，{ "name"：{ "type"："DateTime"，"nullable"：false }，{ "description"：{ "type"：{Text“type”，"nullable"：true }，{

浏览 2提问于2022-07-30得票数 2

回答已采纳

2回答

Pyspark删除dataframe列中的多个字符

、、

看一下pyspark，我看到translate和regexp_replace可以帮助我处理存在于数据框列中的单个字符。我想知道是否有一种方法可以在regexp_replace或translate中提供多个字符串，以便解析它们并用其他东西替换它们。用例:删除A列中的所有$、#和逗号(，)

浏览 0提问于2018-06-09得票数 10

回答已采纳

1回答

将字典的列转换为pyspark dataframe中的列

、、

我有下面的pyspark数据帧df。它的模式如下所示。我还提供了一些样本数据，以及我正在寻找的所需输出。我遇到的问题是attributes列的值是字典。我想为字典中的每个键创建新列，但属性列中的值是字符串。所以我在使用explode或from_json时遇到了问题。我基于另一个使用explode的SO post进行了一次尝试，我运行的代码和错误低于示例数据和所需的输出。我也不知道字典中的所有关键字可能是什么，因为不同的记录有不同的长度字典。有谁有建议如何做到这一点？我正在考虑将它转换为pandas，并尝试以这种方式解决它，但我希望有一个更好/更快的pyspark解决方案。 df.sch

浏览 43提问于2021-10-05得票数 1

回答已采纳

1回答

如何用火花放电绘制时间序列线图

、、、

我有两个列的大数据集，我使用spark和pyspark模块来分析数据集。我试着用“日期”列和“计数”栏绘制线条图。但日期列包括4年的详细情况，但这些都是不整齐的(按日计算)，日期是混合的。所以，首先我想重新安排日期，过去到现在。而这个日期列，数据类型是字符串。如果我是如何在日期类型值中更改此字符串类型日期值，则此日期列必须转换为“日期类型”。

浏览 3提问于2020-04-18得票数 1

回答已采纳

2回答

如何在pyspark dataframe中将时间、年、月、日多列转换为日期时间格式

、、、、

数据框有4列:年、月、日、嗯嗯-小时和分钟连接在一起例如: 10:30等于1030 dd=spark.createDataFrame([(2019,2,13,1030),(2018,2,14,1000),(2029,12,13,0300)],["Year","month","date","hhmm"]) dd.collect() pyspark dataframe dd格式的预期输出 dd.collect() 2019-02-13 10:30:00 2018-2-14 10:00:00 2019-12-13 03:00:

浏览 123提问于2019-05-11得票数 4

2回答

火花:如何解析嵌套列表的JSON字符串以激发数据框架？

、、、

如何解析嵌套列表中的JSON字符串以激发pyspark中的数据帧？输入数据框架： +-------------+-----------------------------------------------+ |url |json | +-------------+-----------------------------------------------+ |https://url.a|[[1572393600000, 1.000],[1572480000000, 1.007]]| |h

浏览 1提问于2021-02-08得票数 2

回答已采纳

3回答

用PySpark把JSON文件读成Pyspark Dataframe？

、、、

如何使用PySpark读取下面的JSON结构来触发数据帧？我的JSON结构 {"results":[{"a":1,"b":2,"c":"name"},{"a":2,"b":5,"c":"foo"}]} 我已经尝试过了： df = spark.read.json('simple.json'); 我希望输出a，b，c作为列，值作为各自的行。谢谢。

浏览 5提问于2018-03-21得票数 4

回答已采纳

2回答

将textbox值动态转换为表列的数据类型值

、、

我试图构建基于用户选择的动态查询，例如，我的数据库结构如下所示： columnname datatype productid int productname varchar(100) updatedate datetime lastsaledate datetime 我有一个组合框，它将动态加载表名。如果选择了特定的表，那么所有的列名都将生成到列表框中，那么用户将根据他的要求选择列，并将数据导出到excel。有时，他可能会尝试根据选择列并输入列的值来检索数据。我的问题是，由于我的sql查询是基于用户选择动态构建的，有时他可能选择productid检索所有产品，然后数据类

浏览 9提问于2016-01-31得票数 1

回答已采纳

1回答

pyspark中的to_json包含空值，但我需要空值作为空

、、、、

我正在使用pyspark中的to_json将dataframe中的结构列转换为json列，但是在json中忽略了少数结构字段中的空值，我不希望这些空值被忽略。

浏览 6提问于2020-10-14得票数 0

2回答

在spark dataframe中转换另一列时使用列值

、、、、

我有一个这样的数据帧： rdd1 = sc.parallelize([(100,2,1234.5678),(101,3,1234.5678)]) df = spark.createDataFrame(rdd1,(['id','dec','val'])) +---+---+---------+ | id|dec| val| +---+---+---------+ |100| 2|1234.5678| |101| 3|1234.5678| +---+---+---------+ 根据dec列中的可用值，我希望在val列上完成转换。例如

浏览 4提问于2018-08-28得票数 0

回答已采纳