我需要创建一个大文件,通过合并Azure Blob存储中包含的几个子文件夹中分散的多个文件,还需要进行转换,每个文件包含一个包含单个元素的JSON数组,因此最终文件将包含一个JSON元素数组。
最终目的是在Hadoop & MapReduce作业中处理这个大文件。
原始文件的布局类似于以下内容:
folder
- month-01
- day-01
- files...
- month-02
- day-02
- files...
发布于 2019-06-12 09:59:34
我根据你的描述做了一个测试,请遵循我的步骤。
我的模拟数据:
test1.json
位于以下文件夹中:date/day1
test2.json
位于以下文件夹中:date/day2
Source DataSet
,将文件格式设置为Array of Objects
,文件路径设置为root path
。
Sink DataSet
,将文件格式设置为Array of Objects
,并将文件路径设置为要存储最终数据的文件。
创建Copy Activity
并将Copy behavior
设置为Merge Files
。
执行结果:
我测试的目标仍然是Azure Blob Storage,你可以参考这个link来了解Hadoop对Azure Blob Storage的支持。
https://stackoverflow.com/questions/56550727
复制相似问题