专栏首页闵开慧Hadoop功能性能

Hadoop功能性能

1 支持的语言

Java/SHELL/Python/ruby等各种支持标准输入输出的语言。

2 能够处理的文件大小

它支持比NFS大得多的文件大小。

3 支持的运行平台

l Java 1.5.x 或更高版本(推荐使用 Sun 的实现版本)。

l 支持Linux与Windows操作系统。在 BSD、Mac OS/X 及 OpenSolaris 上也可工作(对于Windows,需要安装 Cygwin)。

4可扩展性描述

Hadoop的性能已经在多达 2000 个节点的机群上得以验证。排序程序的性能在 900 个节点的机群上表现很好(在 900 个节点上对 9TB 数据进行排序消耗 1.8 小时)。在 1400个节点和 2000 个节点的机群上,排序程序的性能依然不错。1400 个节点排序 14TB 数据消耗 2.2 小时。2000个节点排序 20TB 数据消耗 2.5 小时。

5 是否必须使用 Java 编写应用程序

不,有几种办法让非Java代码与Hadoop协同工作。

l HadoopStreaming允许用任何shell命令作为map或reduce函数。

l libhdfs是一种基于JNI的C语言版API(仅用于 HDFS)。

l Hadoop Pipes是一种兼容SWIG的 C++ API (非JNI),用于编写 MapReduce作业。

6 硬件配置

双 CPU 或双核 CPU、4-8GB ECC 内存的机器比较合适。不要使用桌面级计算机,应当选用性价比高的相对高端的商用机,它们的价格通常是产品级应用程序服务器的 1/2 到 2/3,成本通常在 2000-5000 美元。

7 是否支持多客户端同时写入同一个 HDFS 文件

不支持,HDFS 只支持独占的写入。第一个客户端连接到名字节点,打开待写入的文件时,名字节点授予客户端一个租约,以便其写入这个文件。第二个客户端试图以写入方式打开相同的文件时,名字节点发现此文件的租约已经授予了其它客户端,就会拒绝第二个客户端的打开请求。

目前Release版本是0.20.205.0。还不成熟,但是已经集群规模已经可以达到4000个节点,是在Yahoo!实验室中构建的。下面是此集群的相关数据:

· 4000 节点

· 2 x quad core Xeons@2.5ghz per 节点

· 4 x 1TB SATA Disk per 节点

· 8G RAM per 节点

· 千兆带宽 per 节点

· 每机架有40个节点

· 每个机架有4千兆以太网上行链路

· Redhat Linux AS4 ( Nahant update 5 )

· Sun Java JDK1.6.0_05 - b13

· 所以整个集群有30000多个CPU,近16PB的磁盘空间

2009年4月-- 赢得每分钟排序,59秒内排序500 GB(在1400个节点上)和173分钟内排序100 TB数据(在3400个节点上)。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • ubuntu下jdk安装配置(简单快捷型)

    1 先将hadoop用户权限改为root的就可以执行sudo gedit命令打开文件进行配置,修改权限操作为 root@ubuntu : nano/etc/su...

    闵开慧
  • python文件操作

    #!TestFile.py # -*- coding: cp936 -*- poem='''\ Programming is...

    闵开慧
  • intellij13中svn安装配置

    1 在windows中安装配置svn,和一般安装svn一样。 2 intellij13中svn配置     2.1 设置svn路径如下图所示 ? ? 点击fi...

    闵开慧
  • 堆结构的优秀实现类----PriorityQueue优先队列

         之前的文章中,我们有介绍过动态数组ArrayList,双向队列LinkedList,键值对集合HashMap,树集TreeMap。他们都各自有各自的优...

    Single
  • Rainbond v3.7.0:实现企业级PaaS的稳定性

    作为IT基础系统平台,Rainbond从低耦合的架构设计、高可用的部署方式、自恢复与容错的设计三方面评估和保障分布式系统可用性,以最终达到无人值守的效果。

    Rainbond开源
  • 数据结构与算法-树

    用户3470542
  • 第15期:索引设计(索引组织方式 B+ 树)

    谈到索引,大家并不陌生。索引本身是一种数据结构,存在的目的主要是为了缩短数据检索的时间,最大程度减少磁盘 IO。

    爱可生开源社区
  • Tree树

    树(英语:tree)是一种抽象数据类型(ADT)或是实现这种抽象数据类型的数据结构,用来模拟具有树状结构性质的数据集合。它是由n(n>0)个有限节点组成一个具有...

    羊羽shine
  • 深入学习Redis:主从复制

    https://www.cnblogs.com/kismetv/p/9236731.html

    beifengtz
  • 动图展示,让你彻底理解红黑树!

    简单地理解,二叉树(Binary tree)是每个节点最多只有两个分支(即不存在分支度大于 2 的节点)的树结构。通常分支被称作“左子树”或“右子树”。

    业余草

扫码关注云+社区

领取腾讯云代金券