首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用100mbit/s网络接口部署HBase/HDFS有意义吗?

使用100mbit/s网络接口部署HBase/HDFS有意义吗?
EN

Stack Overflow用户
提问于 2011-03-26 21:28:45
回答 3查看 536关注 0票数 1

我猜测100Mbit/s的网络接口将是HDFS的瓶颈,并且会减慢HBase的速度(最大压缩速度约为10MB/s,等等)。这种部署有意义吗?

我在想,“现在”当SSD进入游戏时,即使是1Gbit/s的网络接口也可能是瓶颈,所以也许永远不应该考虑构建100Mbit/s的集群(即使是硬盘)?

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2011-03-28 23:14:37

您的网络是否会成为瓶颈取决于您正在运行的作业的类型。如果你做文本处理(例如,运行斯坦福NER或共同参考套件),那么100Mbit/s的网络将是你最不关心的问题。但是,如果您正在进行大量的I/O密集型处理(大多数作业都具有较大的reduce步骤),那么它将是。一如既往,这取决于您的工作负载。但是,我认为可以肯定地说,考虑到最近的处理器和具有多个磁盘的节点,100Mb的网络最有可能成为瓶颈的罪魁祸首。

票数 1
EN

Stack Overflow用户

发布于 2011-03-27 00:22:38

长话短说:

你不应该在硬盘文件系统中使用固态硬盘,这些闪存的写入次数是有限的。HDFS有许多写入,这主要是因为复制。如果您使用HBase作为NoSQL DB,这将导致更多的写入。

正如您所说,瓶颈是硬盘和网络。网络是一个更高的瓶颈,因为您正在分发数据,因此必须复制它,如果您正在运行作业,如果数据在本地不可用,则可能会复制这些作业(缩减器必须复制许多内容)。

所以你绝对应该选择比10Mbit或100Mbit更好的网络。这意味着您的交换机和节点上的NIC。

hdd raid不会在写入时产生更高的带宽,有几个基准测试证明了这一点。看一看HDFS Wiki,必须在那里进行描述。

票数 2
EN

Stack Overflow用户

发布于 2011-12-12 19:01:23

对于hadoop集群来说,100MB的网络不太可能是一个很好的设置。你可以在cisco's presentation from Hadoop World上查看一些网络使用情况的分析。也就是说,根据您的实际负载和集群大小,它可能是可行的-尽管您可能希望确保在这种情况下您确实需要Hadoop。

关于SSD,它们的每MB成本更高,根据您的写入负载,您可能需要比HDD更快地更换它们,但它们会节省您的电力-我猜在大型群集中使用SSD并不经济高效(我不知道是否有人这样做)您可以将SSD用于一些磁盘,例如用于群集上的临时空间(例如map/reduce中间结果),以获得IO优势

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5442601

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档