我正在尝试合并大量的小文件(200k+),并想出了以下超级简单的小猪代码:
Files = LOAD 'hdfs/input/path' using PigStorage();
store Files into 'hdfs/output/path' using PigStorage();
一旦Pig完成合并,有没有一种方法可以删除输入文件?我想检查文件是否已经写入并且不是空的(即0字节)。我不能简单地删除输入路径中的所有内容,因为在此期间可能已经插入了新文件,因此理想情况下,我应该只删除Files变量中的文件。
我有一个文本如下的文件,
ukncsavix302:
Red Hat Enterprise Linux Server release 6.6 (Santiago)
ukncsavix353:
Red Hat Enterprise Linux Server release 6.5 (Santiago)
uknwsavix354:
Red Hat Enterprise Linux Server release 6.5 (Santiago)
现在我需要找到上面有"6.5“的行,删除该行并删除它上面的一行。
有人能帮我把这个弄碎吗?