我有一个关于Apache气流和Metaflow(https://docs.metaflow.org/)之间的区别的问题。据我所知,Apache气流只是一个作业调度程序,它运行任务。Netflix的Metaflow是一个数据流库,它以DAG的形式创建机器学习管道(可用数据流)。基本上意味着,Metaflow可以在Apache气流上执行吗?
我的理解正确吗?如果是,是否可以将Metaflow DAG转换为Apache气流DAG?
发布于 2022-01-03 22:10:07
老实说,我还没有和Metaflow合作过,谢谢你把它介绍给我!你可以在Youtube上找到一个不错的介绍视频。
气流是创建预定管道的框架。管道是一组任务,它们相互连接,表示有向无环图。可以对管道进行调度,您可以知道它运行的频率或时间,您可以知道它应该在过去何时运行,以及它应该运行的时间段是什么时候。您可以将整个气流作为一个单码头集装箱运行,也可以有多节点簇,它有一群已经存在的运算符与第三方服务集成。我建议调查一下气流结构和概念。
Metaflow看起来类似的东西,但专门为数据科学家创造。我在这里可能是错的,但是从元流基的角度看,我可以用类似于气流的方式来创建一个预定的管道。
我将查看您想要集成的特定工具,以及两者中哪一个集成得更好。如前所述,气流已经制作了许多连接器和操作者,以及强大的带有回填和Jinja模板语言的调度器来设计在这里输入链接描述的DB查询。
希望这会有所帮助。这里还有一些很好的文章与特征比较。
https://stackoverflow.com/questions/70569957
复制相似问题