我们使用Pig从包含数千个文件的目录中加载文件,对它们进行转换,然后输出合并了输入的文件。
我们已经注意到,输出文件包含每个处理的文件的头记录,即头在每个文件中出现多次。
有没有办法让每个输出文件只有一次头文件?
raw_data = LOAD '$INPUT'
USING org.apache.pig.piggybank.storage.CSVExcelStorage(',')
做一些转换
STORE data INTO '$OUTPUT'
USING org.apache.pig.piggybank.storage.CSVExcelStorage('|')
发布于 2016-01-18 11:56:36
https://stackoverflow.com/questions/34819012
复制相似问题