首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >从DynamoDB表创建数据池

从DynamoDB表创建数据池
EN

Stack Overflow用户
提问于 2021-08-13 07:54:52
回答 1查看 572关注 0票数 1

我们有一个服务,其中一个DynamoDB表~50 is是我们的特性存储库,用于实时在线应用程序。

我们希望从这个表中创建一个数据湖,用于历史数据、模型培训和分析洞察力。我们想保证30分钟的数据湖数据“新鲜”w.r.t。原来的桌子。

但是,我对什么是一个很好的体系结构感到困惑:我对数据湖的理解是,您应该使用一个存储服务(即S3)来存储没有处理的原始数据。然后,执行ETL工作,在转换、处理和过滤数据(例如,使用Glue)之前,将其用于任何应用程序。

,但我有疑问:,这是否意味着我们必须每30分钟将DynamoDB表转储到S3中?这可能是容易做,但听起来很奇怪(这将导致~876 in /年)。

我是不是漏掉了数据湖管道里的东西?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-08-15 08:45:19

您遇到了一个常见的问题,并且它的一个AWS正在积极地工作。

如果您希望从dynamodb持续同步到S3,则可以使用现有技术,包括dynamodb流。我建议在awslabs中检查这个项目。坦率地说,这是相当大的努力。

但是,我相信AWS即将发布一个产品,它将在几次点击中保持dynamodb表和S3存储桶保持同步,不需要代码。它叫AWS胶弹性视图。产品正在预览中。他们在2020年12月宣布了这款产品,所以我希望它能尽快上市。也有一个你可以填写表格参加审判,但没有保证AWS将给予访问。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68768687

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档