熟悉AWS Glue ETL处理,并尝试实现作业,为特定客户从RDS MySQL DB中提取数据,执行一些转换并将结果写入S3。
筛选从源表中选择的数据输入的最佳方法是什么?这是源提取的一部分,还是需要基于特定的键进行单独的筛选转换?
如果将其实现为筛选器转换,是否有一种基于作业输入参数的动态方法?理想情况下,此作业将由事件作为用户启动的工作流的一部分触发。
任何帮助都将不胜感激。提亚
发布于 2021-07-29 11:44:28
筛选从源表中选择的数据输入的最佳方法是什么?这是源提取的一部分,还是需要基于特定的键进行单独的筛选转换?
胶水基本上是由火花管理的。火花有一种叫做PushDownPredicate的技术,它可以优化过滤操作。很可能通过修改read语句,Spark将直接将筛选器操作推入读取操作。
您可以通过使用DynamicFrame方法将Glue DynamicFrame转换为本机火花DataFrame并调用该DataFrame上的解释操作来检查在您的情况下是否发生了这种情况。
如果将其实现为筛选器转换,是否有一种基于作业输入参数的动态方法?理想情况下,此作业将由事件作为用户启动的工作流的一部分触发。
是的,您可以,但不是通过Glue Studio的Visual,您需要手动修改ETL脚本。
https://stackoverflow.com/questions/68581819
复制