我正试图为我的当前系统提供一个可伸缩的解决方案。目前的系统是
3台显微镜--1台加工机
1. 60-100GB Files come from 2-3 microscopes every 30 minutes
2. That data is transferred to a (local) network mount of the processing machine
3. The processing machine runs and contains the ETL(airflow)
目前,它运行得很好。我担心未来的需求和负载(文件大小、处理时间等)增加我们可能面临瓶颈(S)。我正在考虑使用一组机器(通过云计算或多买几台机器),但我们的网络不是最快的,可能传输速度在100到200 more左右。我担心分布式计算的传输速度会使多台机器的优势化为乌有。
我正在考虑一组机器在队列中的想法,如果队列的顶部不忙,显微镜可以将初始文件传输到该机器,其余的进程(步骤2-3)可以正常运行。我只是想知道这是否是一种理智的方法,还是有什么我可以改进的。
发布于 2021-01-06 14:38:45
我会让显微镜立即传送它们的文件,这样它们就不会被阻止,以便将来的工作。这些文件将被转移到一个“持有”系统(需要有大量的可用存储空间),该系统只保存文件,直到有能力在主ETL系统上处理它们。
发布于 2021-01-07 18:23:55
选项1比下面的选项2更容易扩展,它将创建一个队列。每次删除新文件时,都会将其添加到处理机器从中提取的队列中。但是要明确的是,创建文件的系统根本不会注意队列,您希望它们解耦,这样处理中的备份就不会影响显微镜。这种方法将使添加处理机器变得非常容易,所有机器上的代码和配置都是相同的。
选项2 (我认为最初设置起来更简单)是在NFS上为每台处理机器安装处理子目录。因此,当处理机器1为新文件做好准备时,它会将该文件从公共位置移动到该机器特有的处理子目录中。处理机器2将有自己的目录,因此它们将永远不会处理同一个文件。您需要采取步骤,以确保机器从不完全相同的时间查看文件,以防止出现争用状态,但如果您只有少数几台机器,这不应该太难。这样做的一个缺点是,每台额外的计算机都需要一个新的子目录,并且需要在该机器上修改代码才能使用它。
https://softwareengineering.stackexchange.com/questions/420731
复制相似问题