我的大数据基础设施包含气流和EMR,它们在两个独立的集群中运行。当前的数据ETL步骤如下,
Sqoop数据到气流工作者(Hadoop2.7安装在伪分布式模式下)Sync数据到S3Access data on S3使用Spark (EMR运行hadoop 3.2.1)
为了简化ETL过程,我觉得第二步完全没有必要,应该可以通过sqoop将数据直接加载到S3 (sqoop命令将在气流工作者上执行)。
但是,当我将sqoop --target-dir参数设置为S3 URL时,sqoop作业会与java.lang.RuntimeException: java.io.IOException: No Fi
看起来,当空气流模板操作符参数中有任何以.json结尾的字符串时,就会出现错误。有人知道怎么绕过它吗?下面是我的DAG --请注意“--”,STEPS变量中的。
from datetime import timedelta
from airflow import DAG
from airflow.providers.amazon.aws.operators.emr_create_job_flow import EmrCreateJobFlowOperator
from airflow.providers.amazon.aws.operators.emr_terminate_job_flow i
我对AWS Step函数和AWS Lambda函数非常陌生,我真的需要一些帮助来让EMR集群通过Step函数运行。下面的代码显示了我当前状态机结构的示例
{
"Comment": "This is a test for running the structure of the CustomCreate job.",
"StartAt": "PreStep",
"States": {
"PreStep": {
"Comment": "Check