首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >azure数据工厂:如何将文件夹的所有文件合并为一个文件

azure数据工厂:如何将文件夹的所有文件合并为一个文件
EN

Stack Overflow用户
提问于 2019-06-12 03:42:11
回答 1查看 10.8K关注 0票数 2

我需要创建一个大文件,通过合并Azure Blob存储中包含的几个子文件夹中分散的多个文件,还需要进行转换,每个文件包含一个包含单个元素的JSON数组,因此最终文件将包含一个JSON元素数组。

最终目的是在Hadoop & MapReduce作业中处理这个大文件。

原始文件的布局类似于以下内容:

代码语言:javascript
复制
folder
 - month-01
   - day-01
        - files...

- month-02
    - day-02
        - files...
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-06-12 09:59:34

我根据你的描述做了一个测试,请遵循我的步骤。

我的模拟数据:

test1.json位于以下文件夹中:date/day1

test2.json位于以下文件夹中:date/day2

Source DataSet,将文件格式设置为Array of Objects,文件路径设置为root path

Sink DataSet,将文件格式设置为Array of Objects,并将文件路径设置为要存储最终数据的文件。

创建Copy Activity并将Copy behavior设置为Merge Files

执行结果:

我测试的目标仍然是Azure Blob Storage,你可以参考这个link来了解Hadoop对Azure Blob Storage的支持。

票数 9
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56550727

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档