在不更改旧模式的情况下读取pyspark中的json文件_在不更改列名的情况下创建PySpark数据框_在pyspark中读取DStrem中的嵌套JSON数据 - 腾讯云开发者社区

python、json、pyspark

我每天都收到带有10个属性的json，但有些日子，如果任何属性没有值，他们就会发送9个属性，而第10个属性在json中没有。如何在不更改旧表模式的情况下读取pyspark中的json文件

浏览 8提问于2019-05-26得票数 0

0回答

用于在PySpark中定义JSON Schema结构的配置文件

python、apache-spark、pyspark、apache-spark-sql

我已经创建了一个PySpark应用程序，它通过定义的模式读取数据帧中的JSON文件。StructField("timestamp", LongType(), True), df= sqlContext.read.json(file, schema) 我需要一种方法来找到如何在一种配置或ini文件等中定义此模式<

浏览 3提问于2016-07-09得票数 9

1回答

pyspark如何使用json模式为csv文件读取不同日期格式

csv、datetime、pyspark

在csv文件的json schema中，pyspark是否可以使用dateformat参数读取不同的日期格式？}, 使用.option(dateFormat)只能读取一种格式

浏览 1提问于2021-05-05得票数 0

1回答

json文件模式/对象到用于加载数据帧的spark模式

python、json、dataframe、hive、pyspark

我必须使用pySpark加载很多文件到hive表中。有多个包含数据的不同json文件和定义文件数据模式的单独文件。在不传递模式的情况下加载文件时，数据列变得无序，这就是我想要创建模式的原因。Json文件如下所示： data: {'

浏览 2提问于2018-07-14得票数 0

1回答

运行spark.read.json时在json中找到重复列，即使没有重复列

azure、pyspark、apache-spark-sql、azure-synapse

在PySpark和Synapse数据流中，我遇到了非常奇怪的错误。 "abfss://<Container>]@<

浏览 3提问于2021-11-25得票数 0

1回答

Pyspark:仅从嵌套的json数据中读取特定字段

python、json、apache-spark、pyspark

我正在尝试创建一个spark作业，它可以读取1000个json文件并执行一些操作，然后再次写入文件(s3)。这需要很长时间，而且我一直在耗尽内存。我知道spark会在没有给出模式的情况下尝试推断模式。最明显的做法是在读入时提供模式。但是，模式因文件而异，这取决于许多不重要的因素。在所有文件中大约有100个'core‘

浏览 35提问于2020-08-21得票数 0

1回答

json无法推断空模式

apache-spark、pyspark、databricks、azure-databricks

在Pyspark中，每当我读取带有空set元素的json文件时。在结果的DataFrame中忽略整个元素。示例json：{log :[]，分页：{}} 它只忽略了第二个元素，即上述示例中的分页。是否有正确的模式来读取json？

浏览 11提问于2022-10-21得票数 0

1回答

将多个PySpark* DataFrames与MergeSchema合并*

python、pyspark、pyspark-dataframes

我想将多个PySpark数据帧合并到一个PySpark数据帧中。它们都来自相同的模式，但是它们可能会有所不同，因为有时会缺少一些列(例如，模式通常包含200个具有已定义数据类型的列，其中dataFrame A有120列，dataFrame B有60列)。是否有可能在不写入和读取所有数据帧的情况下再次使用mergeSchema合并模式？谢谢。

浏览 2提问于2020-06-22得票数 0

1回答

在PySpark中创建数据帧时处理各种JSON模式

pyspark

我有Databricks笔记本，每小时读取JSON格式的增量数据。所以让我们说在上午11点，文件的模式如下， |-- number: string (nullable = true) | |-- link: string (nullable = true)在下午12点的

浏览 0提问于2021-02-13得票数 1

回答已采纳

2回答

Pyspark:从JSON文件创建模式

pyspark、apache-spark-sql、jsonschema

我正在处理来自非常长的嵌套JSON文件的数据。问题是，这些文件的结构并不总是与其他文件的列相同。我希望从包含所有列的空JSON文件中创建一个自定义模式。如果我稍后将JSON文件读入这个预定义的模式中，则不存在的列将被空值填充(至少计划是这样的</em

浏览 7提问于2021-10-26得票数 3

回答已采纳

1回答

如何将两个spark Dataframe与可以不同的struct类型的字段合并？

scala、apache-spark、struct、spark-dataframe

我是Apache Spark的新手，有时还在苦苦挣扎。我正在尝试导入一个相当复杂的json文件，并在将其保存到parquet文件之前将其展平。我的json文件是一个商店树。在dataframe中导入文件没什么大不了的，但在扁平化过程中，我可能希望对两个具有不同模式的帐户的dataframe进行联合，当然，我有以下错误：“联合只

浏览 0提问于2018-02-12得票数 3

1回答

如何将json文件中的数据加载到pyspark* dataframe中？*

python、json、apache-spark、pyspark

在看过之后，我尝试使用下面的代码，但我知道答案中的createDataFrame与spark.read.json不同，不能以相同的方式使用。from pyspark.sql import SparkSessiondf1.printSchema()

浏览 2提问于2021-04-01得票数 0

1回答

在pyspark* json中使用预定义的架构*

json、pyspark、schema

目前，如果我想用pyspark读取json，我要么使用干扰模式，要么我必须手动定义我的模式StructType。是否可以使用文件作为模式的引用？

浏览 3提问于2017-12-07得票数 0

回答已采纳

3回答

如何指定显式模式AWS Glue PySpark和使用书签

amazon-web-services、pyspark、aws-glue

阅读AWS Glue Python ETL文档时，我不知道在使用以下DynamicFrameReder类并从s3读取json文件时是否有方法提供显式模式：另外，书签是否需要使用上面指定的DynamicFrameReader类？我这样问的原因是，我总是可以使用普通的PySpark来阅读，并以这种方式传入模式，但我不能完全确定书签在不使用Glue函

浏览 0提问于2019-06-05得票数 1

1回答

Pyspark在读取Json文件时强制为空

python、pyspark、nullable

我正在尝试读取一个json文件，并使用SQLContext在读取时强制执行模式，但似乎忽略了可空性部分。StringType,false))sqlc = SQLContext(sc) df = sqlc.read.load("path/to/file", format="jso

浏览 3提问于2016-08-13得票数 1

1回答

如何在PySpark中读取大型JSON文件

json、azure、pyspark、rdd、azure-hdinsight

问题HDInsight PySpark似乎不支持JSON文件格式的数组输入，所以我被困住了。而且，我有“许多”这样的文件，每个文件</

浏览 1提问于2018-02-10得票数 0

回答已采纳

1回答

PySpark模式应该以DDL格式指定为字符串文字或schema_of_json函数的输出，而不是schemaofjson(`col1`)；

pyspark、apache-spark-sql

我尝试通过schema_of_json函数从类似json的字符串中推断出一个模式，然后使用该模式通过from_json函数将该字符串值格式化为结构。我的代码是dfTemp = readFromEventHubs() df= dfTemp.withColumn("col1",sqlf.get_json_object(col(

浏览 0提问于2019-12-04得票数 2

1回答

pyspark json读取标记错误记录

json、pyspark、schema、corrupt-data

我想使用pyspark来解析带有json数据的文件，并想标记‘坏/意外’记录。所谓“坏/意外记录”，是指那些不遵循我指定的模式的记录。我有这个输入文件，并且想要指定模式。当数据按照模式采用预期的格式时，它会起作用。(inp1.json)当输入文件中的数据格式不正确时，它不起作用。(inp2.

浏览 30提问于2019-01-31得票数 0

3回答

蜂巢兽人返回零

hive、null、emr、orc

我正在创建hive外部表ORC (位于S3上的ORC文件)。命令运行查询后的：|有趣的是，返回的记录数量为10，而且它是

浏览 7提问于2017-10-24得票数 1

2回答

从JSON文件中获取Pyspark模式

python、json、apache-spark、pyspark

我试图从JSON文件中获取Pyspark模式，但是当我使用Python代码中的变量创建模式时，我能够看到<class 'pyspark.sql.types.StructType'>的变量类型，但是当我试图通过JSON文件时，它显示的是unicode类型。有没有办法通过JSON文件获取pys

浏览 0提问于2018-07-05得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云