使用pyspark读取Json文件

文章/答案/技术大牛

发布

2回答

读取多个json文件时出错Pyspark

、

我正在尝试将大约300个单独的json文件读取到pyspark中。我可以只读一个，但是一旦我使用了通配符，它就会出错：我已经尝试应用了以下代码：from pyspark import SparkContext, SparkConf sc = S

浏览 1提问于2019-07-25得票数 0

1回答

运行spark.read.json时在json中找到重复列，即使没有重复列

、、、

在PySpark和Synapse数据流中，我遇到了非常奇怪的错误。 "abfss://<Container>]@<DIR>.dfs.core.windows.n

浏览 3提问于2021-11-25得票数 0

1回答

、、、

我正在尝试从databricks中的dbfs读取多个json文件。raw_df = spark.read.json('/mnt/testdatabricks/metrics-raw/',recursiveFileLookup=True) 这只返回35个文件的数据，而大约有1600个文件。我尝试使用pandas读取一些文件(除了那些35个)，但它返回了数据。但是，当我尝试<e

浏览 79提问于2021-11-03得票数 0

1回答

如何在PySpark中读取DBF文件

、、、、

我需要在.DBF中读取和处理PySpark文件，但是我没有得到任何库，我怎么能像读取CSV、JSON、Parquet或其他文件那样读取它。from

浏览 9提问于2022-01-29得票数 0

5回答

如何在一个字符串中读取整个文件

、、

我想读取pyspark.lf格式的json或xml文件我的文件被分成多行输入" employees": { "firstName如何使用pyspark在一行中获得完整的文件？

浏览 2提问于2015-05-26得票数 10

2回答

星火read.json抛出java.io.IOException:换行符前的字节过多

、、、、

在读取一个大的6gb单行json文件时，我得到了以下错误：spark不使用新行读取json文件，因此整个6 gb的json</em

浏览 12提问于2016-03-14得票数 4

回答已采纳

0回答

用于在PySpark中定义JSON* Schema结构的配置文件*

、、、

我已经创建了一个PySpark应用程序，它通过定义的模式读取数据帧中的JSON文件。StructField("timestamp", LongType(), True), df= sqlContext.read.json(file, schema) 我需要一种方法来找到如何在一种配置或ini文件等中定义此模式，并在主PySpark应用程序中读取它。这将帮助我在将来有任何需

浏览 3提问于2016-07-09得票数 9

2回答

PySpark:如何加快sqlContext.read.json的速度？

、、

我正在使用下面的pyspark代码从s3桶中读取数千个JSON文件sqlContext = SQLContext(sc)这需要大量时间来读取和解析JSON文件(~16分钟)。

浏览 1提问于2018-06-20得票数 2

1回答

在pyspark的StructStreaming中；如何将DataFrame中的每一行(json格式的字符串)转换为多列

、

.load() def str_to_json(s): lines.select(str_to_json(lines.values)) 但这只能将它们转换为JSON，而不能转换为列拆分。StructField("items", ArrayType(StringType(

浏览 17提问于2020-04-21得票数 2

4回答

从pyspark读取hdfs文件

、、

我正在尝试读取hdfs中的一个文件。这里显示了我的hadoop文件结构。supergroup 2685300 2016-03-06 17:31 /inputFiles/CountOfMonteCristo/BookText.txtfrom pyspark

浏览 6提问于2016-03-07得票数 13

回答已采纳

1回答

从Pyspark* Dataframe解析JSON字符串*

、、、、

我一直在尝试使用"from_json“和"get_json_object”来解析dataframe列中存在的字典，但一直无法读取数据。以下是我一直在尝试读取的源数据的最小片段： {"value": "\u0000\u0000\u0000\u0000/{\"context\":\"data\"}"} 我需要提取嵌套的dict值。我使用下面的代码清理数据并将其读取到

浏览 36提问于2021-04-01得票数 1

回答已采纳

1回答

使用pyspark解析json数据

、

我正在使用pyspark读取下面的json文件： "data": { "indicatr": {我写了下面的python代码：from pyspark

浏览 22提问于2019-11-28得票数 0

1回答

如何使用Pyspark将.CSV文件转换为.Json文件？

、、、、

我有一个问题，在转换.csv文件到多行json文件使用pyspark。import json spark = SparkSession.builder.appName("jsonco

浏览 9提问于2018-12-08得票数 2

1回答

如何用BytesIO和PySpark阅读json？

、、

我希望使用PySpark阅读IO变量中的json。：ftp.retrbinary('RETR '+ file_name, io.write)# With pandas我尝试使用PySpark，但不起作用： ftp.retrbinary('RETR '+ file_name, io.write) io.see

浏览 9提问于2022-05-14得票数 1

1回答

在PySpark中，如何将Dataframe转换为普通字符串？我将PySpark与Kafka一起使用，而不是硬编码代理名称，而是在PySpark中参数化了Kafka broker名称。Json文件保存了代理详细信息，Spark读取这个Json输入并将值赋值给变量。这些变量为带有字符串的Dataframe类型。当我将dataframe传递给Pyspark连接细节以替换值时，我将面临问题。只能将字符串(不是Datafr

浏览 0提问于2021-03-05得票数 0

1回答

Spark RDD - Scala写和Python读

、、、、

我有一个简单的Spark Scala脚本，它读取一堆日志文件并返回一个RDD[Map[String, String]]rec.saveAsTextFile("/path/to/export.json"); 但

浏览 0提问于2017-03-29得票数 0

1回答

如何在PySpark中读取大型JSON文件

、、、、

问题HDInsight PySpark似乎不支持JSON文件格式的数组输入，所以我被困住了。问题如何在PySpark 2中使用HDInsight上的开箱即用功能来使这些文件被<

浏览 1提问于2018-02-10得票数 0

回答已采纳

1回答

加载程序集时出现的U- SQL问题

、、

我正在尝试对Json的文件执行一些操作，为此在简单的Json上运行一个测试。我得到了错误，不能理解是什么问题。 // A.Microsoft.Analytics.Samples.Formats.Json.JsonExtractor) USING Microsoft.Analytics.Samples.Formats.JsonJSON) and Output (e.g. CSV).JSON) and Output (e.g. CSV).文件</

浏览 14提问于2021-08-12得票数 0

1回答

在pyspark* json中使用预定义的架构*

、、

目前，如果我想用pyspark读取json，我要么使用干扰模式，要么我必须手动定义我的模式StructType。是否可以使用文件作为模式的引用？

浏览 3提问于2017-12-07得票数 0

回答已采纳

1回答

PySpark:在Pandas UDF中使用pyproj包时，如何解决'python worker连接失败‘的错误？(将经度/经度坐标转换为UTM坐标)

、、

我有一个带有经度/经度坐标的json文件，我尝试将其转换为PySpark中的UTM ("x"，"y")。.json文件如下所示： {"positionmessage":{"latitude": 51.822872161865234,"longitude": 4.905614852905273}} {"positionmessage":{"latitude":

浏览 20提问于2020-06-13得票数 1

回答已采纳

点击加载更多

读取多个json文件时出错Pyspark

运行spark.read.json时在json中找到重复列，即使没有重复列