我正在为我的实验室建立一个小型Linux集群。目前,我们有一个作业提交的登录节点和3个计算节点,它们通过Gigabit连接(遗憾的是没有infiniband)。最初,我只是使用NFS为集群用户导出共享存储(主文件夹)。但很快我们发现NFS在实际有效载荷下表现不佳。事实证明,我的集群用户在共享存储中读写小型图片文件(其中一个是<100 in )的GBs是非常常见的。NFS对于小文件IO的性能非常差。但是,在计算机集群场景中为Linux主文件夹使用CIFS/SSHFS并不是一
为此,有必要从集群的所有计算机提供对在reducer和映射器功能中执行读取的文件的访问,因此我在上问了一个问题(也因为不知道在哪台计算机上执行映射器功能(来自程序逻辑的映射器将只有一个,并且程序将仅用一个映射器启动),有必要还提供对所有集群上到达映射器功能输入的文件的访问权限。在这方面我有一个问题:是否可以直接使用hdfs-files :即预先从Linux的文件系统复制文件到HDFS的文件系统(因此,我假设,这些文件在集群的所有计算机上都是可用的,请纠正),然后使用HDFSJava AP
我得到了部署在集群模式下的简单spark作业(SPAR1.6,scala 2.10),这些作业可以读写运行在linux集群上的本地文件系统,但是在尝试将作业启动到运行Windows Server 2012的集群时,会遇到路径问题。其中一个错误似乎是将远程计算机上的本地路径预先放置到我打算使用的集群绝对路径上。也就是说,工作节点上的星火罐位于C:\Users\file.jar,但是火花集群驱动程序上的错误是"java.io.FileNotFou