首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >数据管道-将API响应中的大文件转储到AWS中,最终目标为本地SQL Server

数据管道-将API响应中的大文件转储到AWS中,最终目标为本地SQL Server
EN

Stack Overflow用户
提问于 2019-02-05 23:53:50
回答 1查看 62关注 0票数 0

我刚开始构建数据管道,在这种管道中,将文件转储到云中是数据流中的一个或多个步骤。我们的目标是在云中存储来自各种API的大型原始数据集,然后只提取我们需要的数据(原始数据的摘要),并将其存储在我们的本地SQL Server中,以便进行报告和分析。我们希望以最简单、最合乎逻辑、最健壮的方式做到这一点。我们选择了AWS作为我们的云提供商,但由于我们还处于起步阶段,阶段并不附属于任何特定的架构/服务。因为我既不是云专家,也不是AWS专家,我想我应该把我对如何实现我们的目标的想法发表出来,看看是否有人对我们有什么建议。我们的数据管道的这种架构有意义吗?有没有我们应该考虑的替代服务或数据流?提前谢谢。

1)从多个来源采集数据(使用API)

2)将API的响应转储到S3存储桶中

3)使用胶水爬虫程序创建S3存储桶中数据的数据目录

4)使用雅典娜查询S3中的数据汇总

5)将从Athena查询中获得的数据摘要存储在本地SQL Server中

注意:我们将使用Python对整个数据管道进行编程(这似乎是一个很好的调用,而且很容易,不管我们使用什么亚马逊网络服务作为boto3,从我目前所看到的情况来看,它非常棒)。

EN

回答 1

Stack Overflow用户

发布于 2019-02-06 17:38:27

您可以对#4和#5使用glue作业(pyspark)。您可以使用Glue触发器自动化流程

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54538271

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档