我在从hdfs读取parquets时遇到了一些问题,这些包是由我的程序定期生成的。因此,如果程序由于某些原因停机,可能会产生一些损坏的文件。现在,我想要的是区分损坏的文件和正常的文件,并移动到备份目录。但是我找不到一个好的方法去做。我遇到过两种损坏的文件:在这种情况下,很容易判断,因为它的大小
2.parquet is notParquet file. expected magic number
从Azure Data Factory生成拼图文件(复制活动-从Azure SQL复制到数据湖中的拼图)。当我尝试从蜂窝中读取相同的拼图时,它给出了错误,因为org.apache.parquet.io.ParquetDecodingException:无法读取块中0的值。如果你使用Spark生成拼图,那么你可以设置Spark.sql.parquet.writeLe