我对云空间还是个新手。作为我们当前项目的一部分,我们正在尝试在亚马逊S3存储桶中创建一个数据湖。将会有另一个S3层,它将包含在上一层中发生的CDC。架构团队建议使用Talend或Streamsets。有没有其他方式可以实现从S3到另一个S3 bucket的CDC?
发布于 2020-05-16 05:14:30
实现CDC或修补CDC始终是从事务性源提取数据时的一项重要任务。而S3中的对象是不可变的,因此S3没有提供自己的任何东西来合并捕获的变更数据。在S3或AWS数据湖中,有几种方法可以实现CDC补丁。
首先,您需要确保您的ETL工具管道(Stream-sets/NiFi/Sqoop)应该能够从源系统获取更新的事务/记录(通过使用last_modified_date列等或通过事务日志),并将其放置在相同的s3 diff路径或不同的s3存储桶(CDC-s3)中。
现在,要将这个增量(CDC)合并到基表中,您可以使用下面提到的两种方法之一:
如果您在您的环境中使用AWS EMR或
发布于 2020-01-30 14:26:24
您必须使用ETL/ELT工具来捕获CDC。(据我所知) S3不可能自己处理这个问题。
但是,您也可以考虑AWS Glue或Matillion,因为它们是AWS原生的,因此兼容性可能比Talend更好(附注:我还没有使用Talend)
https://stackoverflow.com/questions/59974352
复制相似问题