我正在为我的实验室建立一个小型Linux集群。目前,我们有一个作业提交的登录节点和3个计算节点,它们通过Gigabit连接(遗憾的是没有infiniband)。最初,我只是使用NFS为集群用户导出共享存储(主文件夹)。但很快我们发现NFS在实际有效载荷下表现不佳。事实证明,我的集群用户在共享存储中读写小型图片文件(其中一个是<100 in )的GBs是非常常见的。NFS对于小文件IO的性能非常差。但是,在计算机集群场景中为Linux主文件夹使用CIFS/SSHFS并不是一
为此,有必要从集群的所有计算机提供对在reducer和映射器功能中执行读取的文件的访问,因此我在上问了一个问题(也因为不知道在哪台计算机上执行映射器功能(来自程序逻辑的映射器将只有一个,并且程序将仅用一个映射器启动),有必要还提供对所有集群上到达映射器功能输入的文件的访问权限。在这方面我有一个问题:是否可以直接使用hdfs-files :即预先从Linux的文件系统复制文件到HDFS的文件系统(因此,我假设,这些文件在集群的所有计算机上都是可用的,请纠正),然后使用HDFSJava AP