专栏首页about云hadoop入门:第十章hadoop工具

hadoop入门:第十章hadoop工具

问题导读

1.hadoop有哪些工具? 2.hadoop流的作用是什么? 3.hadoop集群负载如何模拟? 4.hadoop数据提取和分析工具是哪个? 1.Hadoop 流 文档简介 Hadoop的数据流是自带的Hadoop发行版的实用程序。这个程序允许你创建和运行可执行的Map/Reduce jobs或则脚本,作为mapper或则reducer。举例:

[Bash shell] 纯文本查看 复制代码

?

hadoop jar hadoop-streaming-2.7.2.jar \
  -input myInputDirs \
  -output myOutputDir \
  -mapper /bin/cat \
  -reducer /usr/bin/wc

英文网址 http://hadoop.apache.org/docs/r2.7.2/hadoop-streaming/HadoopStreaming.html 2.Hadoop Archives 指南 文档简介 hadoop Archives 是特殊格式的archives。 一个Hadoop archive 映射一个文件系统目录.hadoop archive 是一个*.har。一个hadoop Archives 目录包括元数据(以 _index 和_masterindex形式)和数据 (part-*)文件。这个_index 文件包含文件的名字作为归档的一部分和部分文件的位置 英文网址 http://hadoop.apache.org/docs/r2.7.2/hadoop-archives/HadoopArchives.html 3.DistCp指南 文档简介 DistCp Version 2 (分布式 copy) 是一个工具用于大的 集群内和集群间的复制。它用mapreduce来影响它的分布,错误处理和恢复,和报告。它扩展了文件列表和目录输入map 的任务,每个文件分区在资源列表指定。本文档的目的是描述新distcp设计 英文文档 http://hadoop.apache.org/docs/r2.7.2/hadoop-distcp/DistCp.html 4.Gridmix 文档简介 GridMix是Hadoop集群的基准。为运行 GridMix,你需要一个MapReduce job 跟踪描述给定集群的混合job 英文文档 http://hadoop.apache.org/docs/r2.7.2/hadoop-gridmix/GridMix.html 5.Rumen 文档简介 Rumen是Apache的Hadoop构建的数据提取和分析工具 英文文档 http://hadoop.apache.org/docs/r2.7.2/hadoop-rumen/Rumen.html 6.Yarn调度负载模拟器(SLS) 文档简介 Yarn 调度器是大家都感兴趣的地方,有不同的实现,例如, Fifo, Capacity 和Fair schedulers.与此同时,一些优化也作出改善不同场景和工作负载调度程序的性能。每个调度器算法有其自身的功能集,驱动调度收到许多影响,比如 fairness, capacity 能力, 资源可用性, 等.这非常重要评估调度算法是好的,在我们部署生产集群之前。一个真正的集群评估始终是时间和成本消耗,但是比较难以找到一个足够大的集群,因此,模拟器可以预测一个调度器算法对于一些特定的工作负载将会很有用。 英文文档 http://hadoop.apache.org/docs/r2.7.2/hadoop-sls/SchedulerLoadSimulator.html

本文分享自微信公众号 - about云(wwwaboutyuncom)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-02-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • hadoop入门:第六章YARN文档概述

    1.YARN 结构 文档简介: Yarn的基本思想是拆分资源管理的功能,作业调度/监控到单独的守护进程 ? 英文网址: http://hadoop...

    用户1410343
  • 各个版本Linux单节点伪分布安装CDH5.1.X及提交wordcount到yarn高可靠文档

    问题导读: 1.安装cdh5伪分布配置文件在什么位置? 2.不同的操作系统,cdh5的安装过程都包含哪些流程? 3.在yarn上运行wordcount都需要哪...

    用户1410343
  • Hadoop HTTP web-consoles认证机制

    问题导读 1.如何配置 Hadoop HTTP web-consoles 所需要的用户身份验证? 2.哪个配置文件可以配置 Hadoop HTTP认证? 3....

    用户1410343
  • hadoop入门五步走

    可以浏览w3c的描述,熟悉hadoop的概念 https://www.w3cschool.cn/hadoop/

    用户1418372
  • hadoop最新发行稳定版:DKHadoop版本选择详解

    Hadoop对于从事互联网工作的朋友来说已经非常熟悉了,相信在我们身边有很多人正在转行从事hadoop开发的工作,理所当然也会有很多hadoop入门新手。Had...

    用户3392176
  • MapReduce学习笔记

    wordcount: 统计文件中每个单词出现的次数需求:1) 文件内容小:shell2)文件内容很大:TB GB ??? 如何解决大数据量的统计分析==> ur...

    Meet相识
  • Hadoop-2.7.2分布式安装手册

    当前版本的Hadoop已解决了hdfs、yarn和hbase等单点,并支持自动的主备切换。

    一见
  • Win7下Eclipse开发hadoop应用程序环境搭建

    在Linux下使用安装Eclipse来进行hadoop应用开发,但是大部分Java程序员对linux系统不是那么熟悉,所以需要在windows下开发hadoop...

    挖掘大数据
  • 教你玩转Hadoop分布式集群搭建,进击大数据

    终于要开始玩大数据了,之前对haoop生态几乎没有太多的了解,现在赶鸭子上架,需要完全使用它来做数据中心,这是我的haoop第一篇文章,以后估计会写很多大数据相...

    用户1263954
  • Hadoop(2)——HDFS(分布式文件系统)

    英文全称是The Hadoop Distributed File System官方地址http://hadoop.apache.org/docs/stable/...

    羊羽shine

扫码关注云+社区

领取腾讯云代金券