专栏首页MiningAlgorithmsMac做java开发(五):​hadoop的几个简单操作

Mac做java开发(五):​hadoop的几个简单操作

今天,对hadoop分布式环境进行一些基本操作练习。

1,文件操作:

// 上传文件到hdfs
hdfs dfs -mkdir -p /user/hadoop
cd ~
touch test001.java
hdfs dfs -put test001.java

// 从hdfs下载文件
hdfs dfs -ls /user/hadoop
hdfs dfs -get test002.java

// 查看文件
hdfs dfs -cat test.py

// 删除文件
hdfs dfs -rm test.py
hdfs dfs -ls

2,运行Hadoop示例程序:

hdfs dfs -mkdir test

hdfs dfs -put ${HADOOP_HOME}/etc/hadoop/core-site.xml test/core-site.xml

hdfs dfs -ls test

hadoop jar ${HADOOP_HOME}/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.2.jar wordcount test/core-site.xml test/output
 
// 查看运行结果:
hdfs dfs -cat test/output/part-r-00000

3,hadoop理解:

•资源:在 YARN 的语境下,资源特指计算资源,包括CPU 和内存。计算机的每个进程都会占用一定的CPU 和内存,任务需要先向RM 申请到资源后才能获准在NM 上启动自己的进程。

•队列:YARN 将整个集群的资源划分为队列,每个用户的任务必须提交到指定队列。同时限制每个队列的大小,防止某个用户的任务占用整个集群,影响了其他用户的使用。

•Vcore& Mem:逻辑 CPU 和逻辑内存,每个NM 会向 RM汇报自己有多少 vcore和内存可用,具体数值由集群管理员配置。比如一台48核,128G内存的机器,可以配置40vcore,120G内存,意为可以对外提供这么多资源。具体数值可能根据实际情况有所调整。每个NM 的逻辑资源加起来,就是整个集群的总资源量。

•MinResources& MaxResources:为了使每个队列都能得到一定的资源,同时又不浪费集群的空闲资源,队列的资源设置都是“弹性”的。每个队列都有min 和 max两个资源值,min 表示只要需求能达到,集群一定会提供这么多资源;如果资源需求超过了min 值而同时集群仍有空闲资源,则仍然可以满足;但又限制了资源不能无限申请以免影响其他任务,资源的分配不会超过max 值。

•Container:任务申请到资源后在NM 上启动的进程统称Container。比如在MapReduce 中可以是Mapper 或Reducer,在Spark 中可以是 Driver或 Executor。

本文分享自微信公众号 - MiningAlgorithms(gh_d0cc50d1ed34),作者:Jesse508

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-08-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 机器学习12:偏差-方差分解与bagging减少方差,boosting减少偏差

    1,误差:误差由偏差(bias)、方差(variance)和噪声(noise)组成;

    用户5473628
  • Confidence interval and Prediction interval

    置信区间估计(confidence interval estimate):利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y ...

    用户5473628
  • Data Structures and Algorithms Basics(013):Two Pointers

    用户5473628
  • 学习前端 第6周 第2天

    Joel
  • 在线可视化编辑源码

    Youngxj
  • iOS自定义UICollectionView和UITableView单元格选中样式

    陈满iOS
  • UITableViewCell系列之(三)卡片式列表

    VV木公子
  • 一步一步学习Bootstrap系列--表单布局

    前言:Bootstrap 属于前端 ui 库,通过现成的ui组件能够迅速搭建前端页面,简直是我们后端开发的福音,通过几个项目的锻炼有必要总结些常用的知识,本篇把...

    用户1055830
  • 基于jsp+servlet图书管理系统之后台用户信息插入操作

    前奏:   刚开始接触博客园写博客,就是写写平时学的基础知识,慢慢发现大神写的博客思路很清晰,知识很丰富,非常又价值,反思自己写的,顿时感觉非常low,有相当长...

    别先生
  • Python开发物联网数据分析平台---掉线记录

    掉线记录,是根据数据库中行记录的上传时间计算的,首先根据上传时间排序,然后时间差分(每条记录的上传时间减去上一记录的上传时间)。过滤时间差分间隔大于一定数值(可...

    MiaoGIS

扫码关注云+社区

领取腾讯云代金券