将文件夹(以制表符分隔)中的所有文件合并为单个文件的最简单方法是什么?它们都共享唯一的列(主键)。实际上,我只需要在这个主键上组合特定的列和链接,因此输出文件将包含每个文件的新列。每个文件中还有许多其他列,我不需要在输出文件中组合这些列,我只需要这些由唯一键列链接的"ratio“列。
我正在运行OS X Snow Leopard,但可以访问几台Linux计算机。
我有多个小的parquet文件生成作为配置单元ql作业的输出,我想合并输出文件到单个拼图文件?
使用hdfs or linux commands最好的方法是什么?我们过去常常使用cat命令合并文本文件,但这也适用于parquet吗?我们是否可以在编写输出文件时使用HiveQL本身,就像我们在spark中使用repartition或coalesc方法一样