文章/答案/技术大牛

发布

社区首页 >问答首页 >设计一个有几个入口点的ETL

问设计一个有几个入口点的ETL
EN

Software Engineering用户

提问于 2021-01-06 13:20:02

回答 2查看 107关注 0票数 4

我正试图为我的当前系统提供一个可伸缩的解决方案。目前的系统是

3台显微镜--1台加工机

 1. 60-100GB Files come from 2-3 microscopes every 30 minutes
 2. That data is transferred to a (local) network mount of the processing machine
 3. The processing machine runs and contains the ETL(airflow)

标度问题

目前，它运行得很好。我担心未来的需求和负载(文件大小、处理时间等)增加我们可能面临瓶颈(S)。我正在考虑使用一组机器(通过云计算或多买几台机器)，但我们的网络不是最快的，可能传输速度在100到200 more左右。我担心分布式计算的传输速度会使多台机器的优势化为乌有。

当前思维

我正在考虑一组机器在队列中的想法，如果队列的顶部不忙，显微镜可以将初始文件传输到该机器，其余的进程(步骤2-3)可以正常运行。我只是想知道这是否是一种理智的方法，还是有什么我可以改进的。

distributed-system

etl

回答 2

Software Engineering用户

发布于 2021-01-06 14:38:45

我会让显微镜立即传送它们的文件，这样它们就不会被阻止，以便将来的工作。这些文件将被转移到一个“持有”系统(需要有大量的可用存储空间)，该系统只保存文件，直到有能力在主ETL系统上处理它们。

票数 1

Software Engineering用户

发布于 2021-01-07 18:23:55

选项1比下面的选项2更容易扩展，它将创建一个队列。每次删除新文件时，都会将其添加到处理机器从中提取的队列中。但是要明确的是，创建文件的系统根本不会注意队列，您希望它们解耦，这样处理中的备份就不会影响显微镜。这种方法将使添加处理机器变得非常容易，所有机器上的代码和配置都是相同的。

选项2 (我认为最初设置起来更简单)是在NFS上为每台处理机器安装处理子目录。因此，当处理机器1为新文件做好准备时，它会将该文件从公共位置移动到该机器特有的处理子目录中。处理机器2将有自己的目录，因此它们将永远不会处理同一个文件。您需要采取步骤，以确保机器从不完全相同的时间查看文件，以防止出现争用状态，但如果您只有少数几台机器，这不应该太难。这样做的一个缺点是，每台额外的计算机都需要一个新的子目录，并且需要在该机器上修改代码才能使用它。

票数 1

页面原文内容由Software Engineering提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://softwareengineering.stackexchange.com/questions/420731

复制

相似问题

问设计一个有几个入口点的ETL
EN

标度问题

当前思维

回答 2

Software Engineering用户

Software Engineering用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问设计一个有几个入口点的ETLEN

标度问题

当前思维

回答 2

Software Engineering用户

Software Engineering用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问设计一个有几个入口点的ETL
EN