在亚马逊网络服务的文档中,他们指定了如何激活对Spark作业()的监控,但不是python外壳作业。
使用原样的代码会给出这个错误:ModuleNotFoundError: No module named 'pyspark'
更糟糕的是,在注释掉from pyspark.context import SparkContext之后,我得到了ModuleNotFoundError: No module named 'awsglue.context'。python shell作业似乎不能访问glue上下文?
当脚本在Glue作业内部运行时,我需要在Glue-ETL作业中做一些设置,而不是我的木星笔记本。
让我们假设我的设置是这样的:
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
SC = SparkContext.getOrCreate()
GC = GlueContext(SC)
# I only want to run this when inside a Glue Job
args =
我想知道是否有可能运行大量的“作业”(或“流水线”或任何正确的方式)来并行执行一些建模任务。
因此,我计划做的是做一个ETL过程和EDA完成,然后当数据准备好后,我想解雇2000个建模工作。我们有2000个产品,每个作业可以从一个数据开始(SELECT * FROM data WHERE PROD_ID='xxxxxxxxx'),我的想法是并行运行这些训练作业(它们之间没有依赖关系-所以对我来说是有意义的)。
首先- 1)在亚马逊网络服务SageMaker中可以做到吗? 2)正确的方法是什么? 3)我需要了解的特殊考虑因素是什么?
提前谢谢你!