我刚开始构建数据管道,在这种管道中,将文件转储到云中是数据流中的一个或多个步骤。我们的目标是在云中存储来自各种API的大型原始数据集,然后只提取我们需要的数据(原始数据的摘要),并将其存储在我们的本地SQL Server中,以便进行报告和分析。我们希望以最简单、最合乎逻辑、最健壮的方式做到这一点。我们选择了AWS作为我们的云提供商,但由于我们还处于起步阶段,阶段并不附属于任何特定的架构/服务。因为我既不是云专家,也不是AWS专家,我想我应该把我对如何实现我们的目标的想法发表出来,看看是否有人对我们有什么建议。我们的数据管道的这种架构有意义吗?有没有我们应该考虑的替代服务或数据流?提前谢谢。
1)从多个来源采集数据(使用API)
2)将API的响应转储到S3存储桶中
3)使用胶水爬虫程序创建S3存储桶中数据的数据目录
4)使用雅典娜查询S3中的数据汇总
5)将从Athena查询中获得的数据摘要存储在本地SQL Server中
注意:我们将使用Python对整个数据管道进行编程(这似乎是一个很好的调用,而且很容易,不管我们使用什么亚马逊网络服务作为boto3,从我目前所看到的情况来看,它非常棒)。
发布于 2019-02-06 17:38:27
您可以对#4和#5使用glue作业(pyspark)。您可以使用Glue触发器自动化流程
https://stackoverflow.com/questions/54538271
复制相似问题