我正在使用AWS Glue作业跨S3存储桶移动和转换数据,我想构建自定义累加器来监控我正在接收和发送的行数,以及其他自定义指标。监控这些指标的最佳方式是什么?根据这篇文档:https://docs.aws.amazon.com/glue/latest/dg/monitoring-awsglue-with-cloudwatch-metrics.html我可以在我的glue工作中跟踪一般指标,但似乎没有一个好方法通过cloudwatch发送自定义指标。
发布于 2021-06-08 23:54:47
考虑在您的亚马逊网络服务胶水作业中使用enabling continuous logging。这将允许您通过进行自定义日志记录。CloudWatch。自定义日志记录可以包括行数等信息。
更确切地说
胶水作业开头的
logger = glueContext.get_logger()
logger.info("Custom logging message that will be sent to CloudWatch")
。例如,如果我有一个名为df
的数据框,我可以通过添加logger.info("Row count of df " + str(df.count()))
将行数记录到CloudWatch中
您的日志消息将位于名为CloudWatch -driver
的日志流下的glue_run_id
日志组/aws-glue/jobs/logs-v2
下。
您也可以参考亚马逊网络服务文档Enabling Continuous Logging for AWS Glue Jobs中的“使用自定义脚本记录器记录特定于应用程序的消息”部分,了解有关特定于应用程序的日志记录的更多信息。
https://stackoverflow.com/questions/67783069
复制相似问题