问azure数据工厂:如何将文件夹的所有文件合并为一个文件
EN

Stack Overflow用户

提问于 2019-06-12 03:42:11

回答 1查看 10.8K关注 0票数 2

我需要创建一个大文件，通过合并Azure Blob存储中包含的几个子文件夹中分散的多个文件，还需要进行转换，每个文件包含一个包含单个元素的JSON数组，因此最终文件将包含一个JSON元素数组。

最终目的是在Hadoop & MapReduce作业中处理这个大文件。

原始文件的布局类似于以下内容：

folder
 - month-01
   - day-01
        - files...

- month-02
    - day-02
        - files...

json

azure

azure-data-factory

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-06-12 09:59:34

我根据你的描述做了一个测试，请遵循我的步骤。

我的模拟数据：

test1.json位于以下文件夹中：date/day1

test2.json位于以下文件夹中：date/day2

Source DataSet，将文件格式设置为Array of Objects，文件路径设置为root path。

Sink DataSet，将文件格式设置为Array of Objects，并将文件路径设置为要存储最终数据的文件。

创建Copy Activity并将Copy behavior设置为Merge Files。

执行结果：

我测试的目标仍然是Azure Blob Storage，你可以参考这个link来了解Hadoop对Azure Blob Storage的支持。

票数 9

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56550727

复制

相似问题

问azure数据工厂:如何将文件夹的所有文件合并为一个文件
EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问azure数据工厂:如何将文件夹的所有文件合并为一个文件EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问azure数据工厂:如何将文件夹的所有文件合并为一个文件
EN