我猜测100Mbit/s的网络接口将是HDFS的瓶颈,并且会减慢HBase的速度(最大压缩速度约为10MB/s,等等)。这种部署有意义吗?
我在想,“现在”当SSD进入游戏时,即使是1Gbit/s的网络接口也可能是瓶颈,所以也许永远不应该考虑构建100Mbit/s的集群(即使是硬盘)?
发布于 2011-03-28 23:14:37
您的网络是否会成为瓶颈取决于您正在运行的作业的类型。如果你做文本处理(例如,运行斯坦福NER或共同参考套件),那么100Mbit/s的网络将是你最不关心的问题。但是,如果您正在进行大量的I/O密集型处理(大多数作业都具有较大的reduce步骤),那么它将是。一如既往,这取决于您的工作负载。但是,我认为可以肯定地说,考虑到最近的处理器和具有多个磁盘的节点,100Mb的网络最有可能成为瓶颈的罪魁祸首。
发布于 2011-03-27 00:22:38
长话短说:
你不应该在硬盘文件系统中使用固态硬盘,这些闪存的写入次数是有限的。HDFS有许多写入,这主要是因为复制。如果您使用HBase作为NoSQL DB,这将导致更多的写入。
正如您所说,瓶颈是硬盘和网络。网络是一个更高的瓶颈,因为您正在分发数据,因此必须复制它,如果您正在运行作业,如果数据在本地不可用,则可能会复制这些作业(缩减器必须复制许多内容)。
所以你绝对应该选择比10Mbit或100Mbit更好的网络。这意味着您的交换机和节点上的NIC。
hdd raid不会在写入时产生更高的带宽,有几个基准测试证明了这一点。看一看HDFS Wiki,必须在那里进行描述。
发布于 2011-12-12 19:01:23
对于hadoop集群来说,100MB的网络不太可能是一个很好的设置。你可以在cisco's presentation from Hadoop World上查看一些网络使用情况的分析。也就是说,根据您的实际负载和集群大小,它可能是可行的-尽管您可能希望确保在这种情况下您确实需要Hadoop。
关于SSD,它们的每MB成本更高,根据您的写入负载,您可能需要比HDD更快地更换它们,但它们会节省您的电力-我猜在大型群集中使用SSD并不经济高效(我不知道是否有人这样做)您可以将SSD用于一些磁盘,例如用于群集上的临时空间(例如map/reduce中间结果),以获得IO优势
https://stackoverflow.com/questions/5442601
复制相似问题