如何从pyspark中的schema json文件创建DataFrame模式？_如何从JSON文件创建UML Schema？_读取pyspark中的JSON文件以创建python中的schema struct类型 - 腾讯云开发者社区

apache-spark、apache-spark-sql

有没有办法将数据帧模式序列化为json，并在以后反序列化它？用例很简单:我有一个json配置文件，其中包含我需要读取的数据帧的模式。我希望能够从现有模式(在dataframe中)创建默认配置，并且能够通过从json字符串中读取相关模式来生成稍后使用的相关模式。

浏览 1提问于2016-12-04得票数 30

回答已采纳

1回答

如何从pyspark中的schema json文件创建DataFrame模式？

pyspark

我正在尝试使用Pyspark从schema json文件创建DataFrame模式。一旦创建了DataFrame模式，我将使用此模式加载json数据文件。有人能帮帮我吗？提前谢谢。对于我的模式json文件，如下所示： [ "name": &

浏览 45提问于2021-10-13得票数 0

1回答

用中的自定义模式读取pySpark中的JSON

json、google-cloud-platform、apache-spark-sql、pyspark-dataframes、google-cloud-dataproc

在GCP (使用pySpark)中，我正在执行一项任务，即按照自定义模式读取JSON文件并将其加载到Dataframe中。我有以下示例测试JSON："id": "1","descr

浏览 0提问于2021-03-22得票数 2

2回答

从JSON文件中获取Pyspark模式

python、json、apache-spark、pyspark

我试图从JSON文件中获取Pyspark模式，但是当我使用Python代码中的变量创建模式时，我能够看到<class 'pyspark.sql.types.StructType'>的变量类型，但是当我试图通过JSON文件时，它显示的是unicode类型。有没有办法通过JSON<e

浏览 0提问于2018-07-05得票数 3

12回答

如何创建一个空的DataFrame？为什么"ValueError: RDD是空的“？

apache-spark、pyspark

我正在努力创建一个空的数据在火花(火花)。df = sqlContext.createDataFrame(sc.emptyRDD(), schema)Traceback (most recent call last):/sql/context.py", line 404, in createDataFrame rdd, schema = self._createFromRDD(da

浏览 4提问于2016-01-06得票数 34

回答已采纳

2回答

将字典列(作为字符串)解析为多列

python、pyspark

我使用的是Pyspark，我有一个dataframe，它的列如下所示： [{"id":111,"o_pos":3,"n_pos":3,"o_score":-3.0,"n_score":0.14572449i_pos":2},{"id":222,"o_pos":4,"n_pos":4,"o_score":-4.0,"n_scor

浏览 14提问于2022-05-25得票数 0

2回答

将字符串转换为pyspark.sql.types.StructType pyspark

dataframe、pyspark

我试图在pyspark中创建空的dataframe，在pyspark中，我从外部JSON文件传递scehma，但是Json不允许我指定struct类型，所以我提到它是string。json文件： "OptionalEvents" : { "StructType([Struc

浏览 39提问于2021-08-23得票数 1

回答已采纳

5回答

如何从PySpark中的数据中获取模式定义？

apache-spark、dataframe、pyspark、schema、azure-databricks

在PySpark中，您可以使用这个预定义的模式定义模式和读取数据源，例如： ]) 对于某些数据源，可以从数据源推断模式，并使用此模式定义

浏览 0提问于2019-02-03得票数 36

回答已采纳

2回答

中跨多行json字符串的统一模式

python、pyspark

对于包含一系列json字符串的PySpark DataFrame中的行，我有一个困难的问题。问题的核心是每一行可能包含与另一行不同的模式，所以当我想将上述行转换为PySpark中的可订阅数据类型时，我需要有一个“统一”模式。({'A': [1, 2, 3], 'B': [json_1, <

浏览 1提问于2020-05-08得票数 5

回答已采纳

1回答

JSON中的无效字符

python、pyspark、apache-spark-sql、pypi、azure-databricks

我有一个字符串格式的结构类型数组的JSON。当我试图在一个json文件中写同样的东西时，我得到了下面的错误。我使用此输出文件进行模式验证，但由于特殊字符而导致失败。from pyspark.sql import Rowfrom pyspark.sql.types import * import

浏览 14提问于2019-08-03得票数 0

0回答

用于在PySpark中定义JSON Schema结构的配置文件

python、apache-spark、pyspark、apache-spark-sql

我已经创建了一个PySpark应用程序，它通过定义的模式读取数据帧中的JSON文件。下面的代码示例 StructField("domain", StringType(), True),])

浏览 3提问于2016-07-09得票数 9

1回答

从模式中删除标点符号

json、pyspark

我有一个json文件，我可以通过：json是嵌套的，一些嵌套的列名中有标点符号。当我试图创建一个非托管表时，这会产生问题。我可以通过创建一个具有有效列名的模式来解决这个问题，但是这是一个劳动密集的过程，因为我有许多文件，每个文件都有许多名称。我希望能够读取json文件，通

浏览 0提问于2019-09-03得票数 0

回答已采纳

2回答

使用来自另一个dataframe的JSON对象创建新的数据

python、json、pandas、dataframe、pyspark

我有一个dataframe，它在一个列中存储一个JSON对象。我希望处理JSON对象来创建一个新的dataframe (列的数目和类型不同，每行将从JSON对象生成n个新行)。我在下面编写了这样的逻辑:在迭代原始数据集时，将字典(行)附加到列表中。data = [] global data for item in row.<em

浏览 4提问于2022-10-19得票数 1

回答已采纳

1回答

使用Pyspark从数组中读取JSON项？

json、pyspark、databricks、azure-databricks

我在从databricks中的Cosmos DB读取项目时遇到了一些问题，它似乎将JSON读取为字符串值，并将数据从JSON中读取到列中。Green", "max": 1000000, } ] 在Cosmos DB中，JSON</e

浏览 29提问于2019-05-13得票数 4

回答已采纳

3回答

PySpark: TypeError: col应该是列

json、dataframe、apache-spark、pyspark、typeerror

我正在尝试从嵌套的JSON结构中创建一个dataframe，但是我遇到了一个我不明白的问题。我已经在JSON中爆炸了一个dicts数组结构，现在我正在尝试访问这些数据集，并创建包含其中的值的列。", dataframe.keywords_exp.name) PySpark: TypeError: col应该是列在di

浏览 7提问于2022-08-04得票数 1

回答已采纳

2回答

不能解析json中的时间戳。

python、json、timestamp、pyspark

例如，给定以下json (命名为‘json’)：和下面的python脚本：from pyspark.sql import SQLContextsc = S

浏览 8提问于2017-05-09得票数 0

回答已采纳

2回答

Pyspark:从JSON文件创建模式

pyspark、apache-spark-sql、jsonschema

我正在处理来自非常长的嵌套JSON文件的数据。问题是，这些文件的结构并不总是与其他文件的列相同。我希望从包含所有列的空JSON文件中创建一个自定义模式。我到目前为止所做的：将测试JSON (不包含所有可以预期的列)加载到dataframewriting中<

浏览 7提问于2021-10-26得票数 3

回答已采纳

1回答

如何将PySpark* RDD转换为具有未知列的Dataframe？*

python、dataframe、pyspark、rdd

我是通过从RDD中的文本文件加载数据来创建PySpark的。现在，我想将这个RDD转换成一个dataframe，但是我不知道RDD中有多少列和列。我试图了解如何创建schema，但大多数示例都显示了一个硬编码模式创建示例。现在，由于我不知道列是什么，所以如何将rdd转换为dataframe？注释1:我不知道列的原因是因为我试图<

浏览 9提问于2017-04-07得票数 2

2回答

使用作为JSON文件提供的模式创建dataframe

apache-spark、pyspark、apache-spark-sql、pyspark-dataframes

我如何用2个JSON文件创建一个吡火花数据框架？file1 :该文件具有完整的数据file2:该文件只有file1数据的架构.{"RESIDENCY":"AUS","EFFDT":"01-01-1900","EFF_STATUS":"A

浏览 4提问于2020-03-06得票数 2

1回答

从postgresql提取数据到pyspark* dataframe时，我是否应该使用模式*

python、pyspark、schema、pyspark-sql

我有一个从postgresql数据库中获取数据的pyspark任务。在读取数据时，我是否应该使用Schema来优化数据并加快提取速度？(据我所知，在读取数据时正常创建模式会使读取速度更快) 然后将数据转换为pandas数据帧，在此转换中，我应该指定模式还是已经优化？

浏览 0提问于2019-05-10得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从json模式表示创建spark数据帧模式

如何从pyspark中的schema json文件创建DataFrame模式？

用中的自定义模式读取pySpark中的JSON

从JSON文件中获取Pyspark模式

如何创建一个空的DataFrame？为什么"ValueError: RDD是空的“？

将字典列(作为字符串)解析为多列

将字符串转换为pyspark.sql.types.StructType pyspark

如何从PySpark中的数据中获取模式定义？

中跨多行json字符串的统一模式

JSON中的无效字符

用于在PySpark中定义JSON Schema结构的配置文件

从模式中删除标点符号

使用来自另一个dataframe的JSON对象创建新的数据

使用Pyspark从数组中读取JSON项？

PySpark: TypeError: col应该是列

不能解析json中的时间戳。

Pyspark:从JSON文件创建模式

如何将PySpark* RDD转换为具有未知列的Dataframe？*

使用作为JSON文件提供的模式创建dataframe

从postgresql提取数据到pyspark* dataframe时，我是否应该使用模式*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐