我使用PySpark读取一个相对较大的csv文件(~10 to ):所有列都有数据类型string。例如,在更改column_a的数据类型后,我可以看到数据类型已更改为integer。如果我将ddf写到一个拼图文件中,并读取这个拼图文件,我会注意到所有的列都有数据类型string。ddf.repartition(10).write.parquet(
从Azure Data Factory生成拼图文件(复制活动-从Azure SQL复制到数据湖中的拼图)。当我尝试从蜂窝中读取相同的拼图时,它给出了错误,因为org.apache.parquet.io.ParquetDecodingException:无法读取块中0的值。如果你使用Spark生成拼图,那么你可以设置Spark.sql.parquet.writeLegacyForma