尝试获得一个句柄,我将使用它来调度和运行作业,以便将数据移动到S3中,在上面运行脚本,然后在s3中移动它。
我的要求是能够从API和数据库中直接摄取。有些格式是XML格式,另一些格式可能是平面文件。原始文件需要连接和转换,并转换成可以生成图形的格式。
AWS胶水作为ETL工具是什么样子的?我的具体问题是,一旦创建了数据源和处理部件,您能看到它们在图形视图中显示的已完成的管道吗?
我使用了它有一个图形用户界面来查看和监视管道,我发现这是非常有用的。只是想知道AWS胶水是否有类似的东西。
如果没有- Nifi在AWS S3上会是一个很好的方法吗?
谢谢
发布于 2019-04-05 12:02:50
如果您正在寻找最好的GUI,我建议您使用NiFi。它通常与S3一起使用,并为其他数据源提供了许多现成的连接器。如果您想在AWS云之外做一些事情,就会变得更加有趣。
话虽如此,我认为Glue也会完成这项工作。
当AWS占用大量资源时,运行Data就像一种反模式。
完全披露:没有与Glue/Data合作过,也没有为Cloudera工作,Cloudera是NiFi背后的驱动力
发布于 2019-04-05 17:52:35
我目前正在使用AWS从DB中提取数据到s3中,操作数据并将其保存回Redshift/S3或通过API发送给我的客户端。AWS Glue GUI不是很好,您不会看到您的流程的图表,有时您需要使用其他工具,如step函数,气流来编排您的工作。而且,我的大部分工作都必须使用PySpark,因为AWS方法太有限了。与监控相关,您可以看到是否存在错误,您的作业占用了多少CPU和内存,s3字节的读写。如果需要其他信息,则需要使用记录器或打印将其发送到日志。
https://stackoverflow.com/questions/49439948
复制相似问题