我正在尝试从HDFS文件(Csv)创建dask数据帧。存储在HDFS中的csv文件包含许多零件文件。
在read_csv应用编程接口调用时:
dd.read_csv("hdfs:<some path>/data.csv")
出现以下错误:
OSError: Could not open file: <some path>/data.csv, mode: rb Path is not a file: <some path>/data.csv
事实上,/data.csv是包含许多零件文件的目录。我不确定是否有一些不同的API来读取这样的hdfs
假设我有一个名为'all_ data‘的目录,在这个目录中,我还有其他几个基于它所包含数据的日期的目录。这些目录被命名为csv to date_2020_11_30,每个目录都包含csv文件,我打算在单个数据帧中读取这些文件。 但是我不想读取date_2020_11_15和date_2020_11_16的数据,我该怎么做呢?