首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >设计一个有几个入口点的ETL

设计一个有几个入口点的ETL
EN

Software Engineering用户
提问于 2021-01-06 13:20:02
回答 2查看 107关注 0票数 4

我正试图为我的当前系统提供一个可伸缩的解决方案。目前的系统是

3台显微镜--1台加工机

代码语言:javascript
运行
复制
 1. 60-100GB Files come from 2-3 microscopes every 30 minutes
 2. That data is transferred to a (local) network mount of the processing machine
 3. The processing machine runs and contains the ETL(airflow)

标度问题

目前,它运行得很好。我担心未来的需求和负载(文件大小、处理时间等)增加我们可能面临瓶颈(S)。我正在考虑使用一组机器(通过云计算或多买几台机器),但我们的网络不是最快的,可能传输速度在100到200 more左右。我担心分布式计算的传输速度会使多台机器的优势化为乌有。

当前思维

我正在考虑一组机器在队列中的想法,如果队列的顶部不忙,显微镜可以将初始文件传输到该机器,其余的进程(步骤2-3)可以正常运行。我只是想知道这是否是一种理智的方法,还是有什么我可以改进的。

EN

回答 2

Software Engineering用户

发布于 2021-01-06 14:38:45

我会让显微镜立即传送它们的文件,这样它们就不会被阻止,以便将来的工作。这些文件将被转移到一个“持有”系统(需要有大量的可用存储空间),该系统只保存文件,直到有能力在主ETL系统上处理它们。

票数 1
EN

Software Engineering用户

发布于 2021-01-07 18:23:55

选项1比下面的选项2更容易扩展,它将创建一个队列。每次删除新文件时,都会将其添加到处理机器从中提取的队列中。但是要明确的是,创建文件的系统根本不会注意队列,您希望它们解耦,这样处理中的备份就不会影响显微镜。这种方法将使添加处理机器变得非常容易,所有机器上的代码和配置都是相同的。

选项2 (我认为最初设置起来更简单)是在NFS上为每台处理机器安装处理子目录。因此,当处理机器1为新文件做好准备时,它会将该文件从公共位置移动到该机器特有的处理子目录中。处理机器2将有自己的目录,因此它们将永远不会处理同一个文件。您需要采取步骤,以确保机器从不完全相同的时间查看文件,以防止出现争用状态,但如果您只有少数几台机器,这不应该太难。这样做的一个缺点是,每台额外的计算机都需要一个新的子目录,并且需要在该机器上修改代码才能使用它。

票数 1
EN
页面原文内容由Software Engineering提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://softwareengineering.stackexchange.com/questions/420731

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档