hadoop入门:第十章hadoop工具

问题导读

1.hadoop有哪些工具? 2.hadoop流的作用是什么? 3.hadoop集群负载如何模拟? 4.hadoop数据提取和分析工具是哪个? 1.Hadoop 流 文档简介 Hadoop的数据流是自带的Hadoop发行版的实用程序。这个程序允许你创建和运行可执行的Map/Reduce jobs或则脚本,作为mapper或则reducer。举例:

[Bash shell] 纯文本查看 复制代码

?

hadoop jar hadoop-streaming-2.7.2.jar \
  -input myInputDirs \
  -output myOutputDir \
  -mapper /bin/cat \
  -reducer /usr/bin/wc

英文网址 http://hadoop.apache.org/docs/r2.7.2/hadoop-streaming/HadoopStreaming.html 2.Hadoop Archives 指南 文档简介 hadoop Archives 是特殊格式的archives。 一个Hadoop archive 映射一个文件系统目录.hadoop archive 是一个*.har。一个hadoop Archives 目录包括元数据(以 _index 和_masterindex形式)和数据 (part-*)文件。这个_index 文件包含文件的名字作为归档的一部分和部分文件的位置 英文网址 http://hadoop.apache.org/docs/r2.7.2/hadoop-archives/HadoopArchives.html 3.DistCp指南 文档简介 DistCp Version 2 (分布式 copy) 是一个工具用于大的 集群内和集群间的复制。它用mapreduce来影响它的分布,错误处理和恢复,和报告。它扩展了文件列表和目录输入map 的任务,每个文件分区在资源列表指定。本文档的目的是描述新distcp设计 英文文档 http://hadoop.apache.org/docs/r2.7.2/hadoop-distcp/DistCp.html 4.Gridmix 文档简介 GridMix是Hadoop集群的基准。为运行 GridMix,你需要一个MapReduce job 跟踪描述给定集群的混合job 英文文档 http://hadoop.apache.org/docs/r2.7.2/hadoop-gridmix/GridMix.html 5.Rumen 文档简介 Rumen是Apache的Hadoop构建的数据提取和分析工具 英文文档 http://hadoop.apache.org/docs/r2.7.2/hadoop-rumen/Rumen.html 6.Yarn调度负载模拟器(SLS) 文档简介 Yarn 调度器是大家都感兴趣的地方,有不同的实现,例如, Fifo, Capacity 和Fair schedulers.与此同时,一些优化也作出改善不同场景和工作负载调度程序的性能。每个调度器算法有其自身的功能集,驱动调度收到许多影响,比如 fairness, capacity 能力, 资源可用性, 等.这非常重要评估调度算法是好的,在我们部署生产集群之前。一个真正的集群评估始终是时间和成本消耗,但是比较难以找到一个足够大的集群,因此,模拟器可以预测一个调度器算法对于一些特定的工作负载将会很有用。 英文文档 http://hadoop.apache.org/docs/r2.7.2/hadoop-sls/SchedulerLoadSimulator.html

原文发布于微信公众号 - about云(wwwaboutyuncom)

原文发表时间:2016-02-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏IT技术精选文摘

缓存更新的套路

看到好些人在写更新缓存数据代码时,先删除缓存,然后再更新数据库,而后续的操作会把数据再装载的缓存中。然而,这个是逻辑是错误的。试想,两个并发操作,一个是更新操作...

3997
来自专栏Hadoop实操

CDSW1.2的新功能

1.CDSW现在正式成为Cloudera Manager管理的服务之一,可以直接通过Parcel安装。Cloudera Manager通过CSD(Custom ...

1.8K7
来自专栏腾讯大数据的专栏

Hadoop Raid-实战经验总结

分布式文件系统用于解决海量数据存储的问题,腾讯大数据采用HDFS(Hadoop分布式文件系统)作为数据存储的基础设施,并在其上构建如Hive、HBase、Spa...

28810
来自专栏腾讯移动品质中心TMQ的专栏

GT3.1简化您的App性能测试(2)——原理讲解,溯本求源

GT3.1的版本更新,带来了全面的维度分析。那么这些功能是如何实现的呢?本章GT君将详细的从CUP维度、内存维度、流量维度、流畅度维度为大家讲解这些功能的作用和...

5676
来自专栏Rindew的iOS技术分享

解决iOS 10 Info.plist文件缺少key崩溃的正确姿势

2104
来自专栏张善友的专栏

利用 Microsoft StreamInsight 控制较大数据流

原文地址:http://msdn.microsoft.com/zh-cn/magazine/hh205648.aspx 下载代码示例 生产线的产量下降后,将...

2146
来自专栏Python小白进阶之旅

Python盗号原理-代码实现截屏键盘记录远程发送-不要做坏事-木马外挂学习使用

这年头盗号的从出不穷,不是脱裤就是社工钓鱼。今天呢我们就以前面的几篇技术文章做铺垫,来讲一下python盗号的原理(学习用途,请勿用于违法犯罪),知己知彼方能百...

6158
来自专栏SDNLAB

OVN实战一之GNS3操作指南及OVN入门

一、GNS3简介 GNS3是一个专业的网络模拟器,可以用它来模拟交换机、路由器、防火墙等网络设备。它的功能非常强大,基于它能搭建一个近似于 “真实”的模拟环境。...

5564
来自专栏企鹅号快讯

可编程逻辑控制器PLC

PLC代表可编程逻辑控制器。它们基本上用于控制工业中的自动化系统。它们是最先进和最简单的控制系统之一,现在正在大规模地取代硬连线逻辑继电器。 ? 在详细介绍PL...

2347
来自专栏CSDN技术头条

Spark Streaming容错的改进和零数据丢失

本文来自Spark Streaming项目带头人Tathagata Das的博客文章,他现在就职于Databricks公司。过去曾在UC Berkeley的AM...

1999

扫码关注云+社区

领取腾讯云代金券