有没有人可以在不转换xlsx或xls文件的情况下让我知道,我们如何才能将它们作为spark数据帧读取?我已经尝试使用pandas读取数据,然后尝试转换为spark dataframe,但得到错误,错误是Cannot merge type <class 'pyspark.sql.types.DoubleType'> and <class 'pyspark.sql.types.StringType'>
我正在尝试读取位于ADLS管理区域上的Excel文件。大约有25个excel文件。我的程序遍历excel文件,并将它们读取到PySpark数据帧中。然而,在阅读了大约9个excel文件后,我收到以下错误- Py4JJavaError: An error occurred while calling o1481.load.
: java.io.IOExceptionsize: 6111064, Raw
我有一个包含以下列的excel(.xlsx)文件EUR 1/1/2020获取以下错误:
field Budget: Can not merge type <class 'pyspark.sql.types.DoubleType'> and <class 'pyspark.sql.types.StringType'