文章/答案/技术大牛

发布

社区首页 >问答首页 >数据管道-将API响应中的大文件转储到AWS中，最终目标为本地SQL Server

问数据管道-将API响应中的大文件转储到AWS中，最终目标为本地SQL Server
EN

Stack Overflow用户

提问于 2019-02-05 23:53:50

回答 1查看 62关注 0票数 0

我刚开始构建数据管道，在这种管道中，将文件转储到云中是数据流中的一个或多个步骤。我们的目标是在云中存储来自各种API的大型原始数据集，然后只提取我们需要的数据(原始数据的摘要)，并将其存储在我们的本地SQL Server中，以便进行报告和分析。我们希望以最简单、最合乎逻辑、最健壮的方式做到这一点。我们选择了AWS作为我们的云提供商，但由于我们还处于起步阶段，阶段并不附属于任何特定的架构/服务。因为我既不是云专家，也不是AWS专家，我想我应该把我对如何实现我们的目标的想法发表出来，看看是否有人对我们有什么建议。我们的数据管道的这种架构有意义吗？有没有我们应该考虑的替代服务或数据流？提前谢谢。

1)从多个来源采集数据(使用API)

2)将API的响应转储到S3存储桶中

3)使用胶水爬虫程序创建S3存储桶中数据的数据目录

4)使用雅典娜查询S3中的数据汇总

5)将从Athena查询中获得的数据摘要存储在本地SQL Server中

注意:我们将使用Python对整个数据管道进行编程(这似乎是一个很好的调用，而且很容易，不管我们使用什么亚马逊网络服务作为boto3，从我目前所看到的情况来看，它非常棒)。

sql-server

amazon-web-services

amazon-s3

data-pipeline

回答 1

Stack Overflow用户

发布于 2019-02-06 17:38:27

您可以对#4和#5使用glue作业(pyspark)。您可以使用Glue触发器自动化流程

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/54538271

复制

相似问题

问数据管道-将API响应中的大文件转储到AWS中，最终目标为本地SQL Server
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据管道-将API响应中的大文件转储到AWS中，最终目标为本地SQL ServerEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据管道-将API响应中的大文件转储到AWS中，最终目标为本地SQL Server
EN