我们有一个服务,其中一个DynamoDB表~50 is是我们的特性存储库,用于实时在线应用程序。
我们希望从这个表中创建一个数据湖,用于历史数据、模型培训和分析洞察力。我们想保证30分钟的数据湖数据“新鲜”w.r.t。原来的桌子。
但是,我对什么是一个很好的体系结构感到困惑:我对数据湖的理解是,您应该使用一个存储服务(即S3)来存储没有处理的原始数据。然后,执行ETL工作,在转换、处理和过滤数据(例如,使用Glue)之前,将其用于任何应用程序。
,但我有疑问:,这是否意味着我们必须每30分钟将DynamoDB表转储到S3中?这可能是容易做,但听起来很奇怪(这将导致~876 in /年)。
我是不是漏掉了数据湖管道里的东西?
发布于 2021-08-15 08:45:19
您遇到了一个常见的问题,并且它的一个AWS正在积极地工作。
如果您希望从dynamodb持续同步到S3,则可以使用现有技术,包括dynamodb流。我建议在awslabs中检查这个项目。坦率地说,这是相当大的努力。
但是,我相信AWS即将发布一个产品,它将在几次点击中保持dynamodb表和S3存储桶保持同步,不需要代码。它叫AWS胶弹性视图。产品正在预览中。他们在2020年12月宣布了这款产品,所以我希望它能尽快上市。也有一个你可以填写表格参加审判,但没有保证AWS将给予访问。
https://stackoverflow.com/questions/68768687
复制相似问题