如何使用pyspark读取Excel文件？

文章/答案/技术大牛

发布

1回答

如何在excel和csv文件中自动跳过行，直到在python中找到标题行为止？

、、

我们是否可以使用python (任何模块)使代码跳过不必要的行，直到在excel和csv文件中找到标题行？在上面的示例中，我们需要自动跳过前3行，然后从第4行开始读取文件，从"G/L“开始，这是文档的主要标题行。

浏览 17提问于2022-09-14得票数 0

回答已采纳

2回答

、、、、

我正在尝试使用AWS EMR的Pyspark来读取它驻留在s3中的Excel文件，为此，我下载了spark-excel jars spark-excel_2.11-0.12.4.jar和spark-excel_2.12-0.13.5.jar，并将其放入s3存储桶中=========== df = spark.read.format("com.crealytics.spark.excel).optio

浏览 109提问于2021-02-13得票数 0

5回答

如何将xlsx或xls文件作为spark dataframe读取

、、

有没有人可以在不转换xlsx或xls文件的情况下让我知道，我们如何才能将它们作为spark数据帧读取？我已经尝试使用pandas读取数据，然后尝试转换为spark dataframe，但得到错误，错误是Cannot merge type <class 'pyspark.sql.types.DoubleType'> and <class 'pyspark.sql.types.StringType'>

浏览 25提问于2019-06-03得票数 8

1回答

将pandas数据帧转换为spark数据帧时收到错误

、、

由于在spark中没有对读取excel文件的开箱即用的支持，所以我首先将excel文件读取到pandas数据帧中，然后尝试将pandas数据帧转换为spark数据帧，但我得到了以下错误(我使用spark1.5.1)from pandas import ExcelFilefrom pyspark.sqlimport SQLCon

浏览 0提问于2016-01-15得票数 2

2回答

将Spark (pyspark.pandas.Dataframe)从Azure DataBricks导出到Excel文件

、、、、

我很难将一个pyspark.pandas.Dataframe导出到一个Excel文件。我发现很多与性能和方法有关的困难。pyspark.pandas.Dataframe有一个内置的to_excel方法，但是当文件大于50 to时，命令在1小时后出现超时错误(似乎是众所周知的)。下面可以找到一个

浏览 13提问于2022-09-14得票数 0

回答已采纳

1回答

如何读取excel xlsx文件

、、

我的要求是使用Pyspark读取excel，同时做同样的操作，以获得低于错误的结果。错误: Py4JJav

浏览 22提问于2022-02-14得票数 0

1回答

以第三行为标题读取pyspark中的excel文件

、、

我想读取excel文件作为spark数据帧，第3行作为header.The synatax，读取excel文件作为spark数据帧，第1行作为标题是： s_df = spark.read.format("com.crealytics.spark.excel") \ .option("header", "true") \.option("infer

浏览 86提问于2021-04-07得票数 2

回答已采纳

2回答

使用PySpark:未能找到数据源: com.crealytics.spark.excel读取Excel文件

、、、

我试图使用vscode中的jupyter、1.8.0_311 ()的java版本和2.12.15版本的scala版本读取一个excel文件。以下代码如下：import pandas as pd from pyspark import SparkContext

浏览 12提问于2021-12-23得票数 2

回答已采纳

4回答

将csv文件内容导入pyspark数据格式

我如何将一个.csv文件导入？我甚至尝试在Pandas中读取csv文件，然后使用createDataFrame将其转换为createDataFrame，但它仍然显示出一些错误。有人能指引我渡过难关吗？另外，请告诉我如何导入xlsx文件？java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient 我的代码是：

浏览 0提问于2016-08-01得票数 14

1回答

如何在PySpark中读取DBF文件

、、、、

我需要在.DBF中读取和处理PySpark文件，但是我没有得到任何库，我怎么能像读取CSV、JSON、Parquet或其他文件那样读取它。from

浏览 9提问于2022-01-29得票数 0

1回答

Spark XML -使用Excel中的XML

、、、

我有一个Excel表，其中一列包含xml(每一行都是一个不同的xml)。我正在尝试使用Pyspark和spark-xml通过执行df = spark.read.format('xml').options(rowTag = 'book').load(___)来解析这些内容。当您指定一个xml文件时，load工作得很好，但是是否可以读取Excel表格并循环这些要解析的xml，而不必将每个xml文件转换为自己的xml文件</em

浏览 17提问于2020-06-15得票数 2

1回答

阅读拼花时read.partitions选项的用途是什么？

、、

我找到了使用pyspark读取拼花面板文件的以下代码段。

浏览 6提问于2019-12-17得票数 0

1回答

在pyspark中以csv格式读取excel文件

、、

我是pySpark新手，使用数据库时，我试图用以下代码读取保存为csv的excel文件这很好用，除了一些观测值为空值，而在exc

浏览 3提问于2019-11-27得票数 0

2回答

Spark流处理二进制数据文件

、

我使用的是pyspark 1.6.0。在PYSPARK中，我使用: sc.binaryFiles("s3n://.......")读取二进制文件。这很有效，因为它提供了一个元组(文件名和数据)，但我正在尝试找到一个等效的PYSPARK流

浏览 3提问于2016-06-29得票数 6

4回答

databricks:将spark数据帧直接写入excel

但是我想使用spark dataframe来处理我的数据。有什么想法吗？

浏览 0提问于2019-11-29得票数 5

1回答

使用Crealytics包读取Excel文件时出错

、、、、

我试图使用Crealytics从HDFS位置读取一个Excel文件，并不断得到一个错误(由: java.lang.ClassNotFoundException:org.apache.spark.sql.connector.catalog.TableProvider我使用的文件位置是准确的。("useHeader", "true") \ .load("/user/data/Block_lis

浏览 11提问于2022-02-28得票数 -1

回答已采纳

1回答

文件将超过最大值。压缩文件大小与扩展数据大小的比率

、

我正在尝试读取位于ADLS管理区域上的Excel文件。大约有25个excel文件。我的程序遍历excel文件，并将它们读取到PySpark数据帧中。然而，在阅读了大约9个excel文件后，我收到以下错误- Py4JJavaError: An error occurred while calling o1481.load. : java.io.IOExceptionsize: 6111064, Raw

浏览 473提问于2020-07-23得票数 0

1回答

如何使用xlsx文件作为输入并使用pyspark创建数据库表

、、、、

我需要使用xlsx文件作为输入创建一个db表。我能够使用csv文件的以下代码，并使用以下代码创建一个表。但是有没有一种方法可以使用xlsx文件并创建db表。

浏览 0提问于2020-08-10得票数 0

1回答

在将excel文件读取到熊猫数据时处理数据类型问题

、、、、

我有一个包含以下列的excel(.xlsx)文件EUR 1/1/2020获取以下错误： field Budget: Can not merge type <class 'pyspark.sql.types.DoubleType'> and <class 'pyspark.sql.types.StringType'

浏览 3提问于2022-02-22得票数 0

回答已采纳

1回答

如何在pyspark中解压tar.gz文件？tar.gz中有10个文件。我只对读取10个文件中的一个文件感兴趣

、

如何在pyspark中解压tar.gz文件？tar.gz中有10个文件。我只对读取10个文件中的一个感兴趣，我需要使用pyspark解压。

浏览 1提问于2019-12-14得票数 0

点击加载更多

如何在excel和csv文件中自动跳过行，直到在python中找到标题行为止？