我有一套结构统一的每日CSV文件,我会将它们上传到S3。有一个下游任务将CSV数据加载到Redshift数据库表中。CSV中的列数可能会增加,从那时起,新文件中将包含新列。当发生这种情况时,我希望检测更改并自动将该列添加到目标Redshift表中。
我的计划是在源CSV文件上运行Glue Crawler。模式中的任何更改都将在Glue Data Catalog中生成表的新版本。然后,我想使用Java
我已经在redshift中定义了一个具有某些列的现有表。这已经通过使用jsonpath定义& COPY from S3命令成功地映射到了一个JSON存储桶中。这一切都运行得很好。然而,这个新数据并没有这个红移表中所有列的值-我想简单地将新存储桶数据的红移表中的那些特定值默认为none。我试图避免对新的存储桶数据进行预处理,这可能只涉及添加具有空值的附加键(以映射到不需要的列)。我尝试过在jsonpath中简单