我有一个火花作业,我有一个巨大的文件输出300 gb到S3。我的要求是重命名所有的部分文件,然后我们必须移动到最后的文件夹。因此,我想出了一个计划,从S3读取回火花输出文件,然后重命名它,然后在S3文件夹中再写一次。这对我来说太令人沮丧了。我就是这么做的。
val file = fs.globStatus(new Pat
我们复制了一个150mb的csv文件到flume的spool目录,当它被加载到hdfs时,文件被分割成更小的文件,比如80kb。有没有办法加载文件而不被分割成更小的文件使用flume?agent.sinks.flumeHDFS.type = hdfsagent.sinks.flumeHDFS.hdfs.fileTypeon maximum size o