前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Hadoop功能性能

Hadoop功能性能

作者头像
闵开慧
发布2018-03-30 10:47:19
8700
发布2018-03-30 10:47:19
举报
文章被收录于专栏:闵开慧闵开慧

1 支持的语言

Java/SHELL/Python/ruby等各种支持标准输入输出的语言。

2 能够处理的文件大小

它支持比NFS大得多的文件大小。

3 支持的运行平台

l Java 1.5.x 或更高版本(推荐使用 Sun 的实现版本)。

l 支持Linux与Windows操作系统。在 BSD、Mac OS/X 及 OpenSolaris 上也可工作(对于Windows,需要安装 Cygwin)。

4可扩展性描述

Hadoop的性能已经在多达 2000 个节点的机群上得以验证。排序程序的性能在 900 个节点的机群上表现很好(在 900 个节点上对 9TB 数据进行排序消耗 1.8 小时)。在 1400个节点和 2000 个节点的机群上,排序程序的性能依然不错。1400 个节点排序 14TB 数据消耗 2.2 小时。2000个节点排序 20TB 数据消耗 2.5 小时。

5 是否必须使用 Java 编写应用程序

不,有几种办法让非Java代码与Hadoop协同工作。

l HadoopStreaming允许用任何shell命令作为map或reduce函数。

l libhdfs是一种基于JNI的C语言版API(仅用于 HDFS)。

l Hadoop Pipes是一种兼容SWIG的 C++ API (非JNI),用于编写 MapReduce作业。

6 硬件配置

双 CPU 或双核 CPU、4-8GB ECC 内存的机器比较合适。不要使用桌面级计算机,应当选用性价比高的相对高端的商用机,它们的价格通常是产品级应用程序服务器的 1/2 到 2/3,成本通常在 2000-5000 美元。

7 是否支持多客户端同时写入同一个 HDFS 文件

不支持,HDFS 只支持独占的写入。第一个客户端连接到名字节点,打开待写入的文件时,名字节点授予客户端一个租约,以便其写入这个文件。第二个客户端试图以写入方式打开相同的文件时,名字节点发现此文件的租约已经授予了其它客户端,就会拒绝第二个客户端的打开请求。

目前Release版本是0.20.205.0。还不成熟,但是已经集群规模已经可以达到4000个节点,是在Yahoo!实验室中构建的。下面是此集群的相关数据:

· 4000 节点

· 2 x quad core Xeons@2.5ghz per 节点

· 4 x 1TB SATA Disk per 节点

· 8G RAM per 节点

· 千兆带宽 per 节点

· 每机架有40个节点

· 每个机架有4千兆以太网上行链路

· Redhat Linux AS4 ( Nahant update 5 )

· Sun Java JDK1.6.0_05 - b13

· 所以整个集群有30000多个CPU,近16PB的磁盘空间

2009年4月-- 赢得每分钟排序,59秒内排序500 GB(在1400个节点上)和173分钟内排序100 TB数据(在3400个节点上)。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档