学习
实践
活动
工具
TVP
写文章
专栏首页一英里广度一英寸深度的学习Hadoop HDFS分布式文件系统Docker版

Hadoop HDFS分布式文件系统Docker版

一、Hadoop文件系统HDFS

  1. 构建单节点的伪分布式HDFS
  2. 构建4个节点的HDFS分布式系统
  • nameNode
  • secondnameNode
  • datanode1
  • datanode2

其中 datanode2动态节点,在HDFS系统运行时,==动态加入==。

二、Mac docker环境

  通常在mac os上搭建开发环境是非常方便的,两个docker软件:

  • Docker for mac
  • Docker toolBox

  如果你要在本机做开发,配置IDE环境,想要连接到Docker中,推荐使用Docker toolBOX。docker for mac 版本没有docker0网桥。

  在mac系统上又运行了一层虚拟机,只有这层虚拟机可以直连到docker网络。强烈建议开发不要再找docker for mac连接docker0的方法了,这个坑已经浪费了很多人的时间。

  如果mac系统版本在10.13 以上,还会遇到创建网卡失败的问题,要注意关闭系统安全特性设置。

sudo spctl --master-disable

感谢作者@ 仰望神的光,《macOS 10.13 安装Virtualbox失败》,https://blog.csdn.net/u013247765/article/details/78176079 docker 常用命令的总结,会在文章末尾附录。

三、Docker 镜像

  构建Hadoop镜像文件。构建docker image有2中方式,(1)docker commit保存现有环境生成image(2)Dockfile,docker build生成image。通过实验,构建Dockerfile的速度很快,而且支持环境变量,同步文件等方式。开始可以用commit不断调整,最后确定Dockfile内容。而且Dockerfile文件结构清晰,方便查看。

FROM       ubuntu:16.04
MAINTAINER wsn

RUN apt-get update

RUN apt-get install -y openjdk-8-jdk
RUN apt-get install -y vim
RUN apt install -y net-tools
RUN apt install -y iputils-ping 

RUN apt-get install -y openssh-server
RUN mkdir /var/run/sshd

RUN echo 'root:root' |chpasswd

RUN sed -ri 's/^PermitRootLogin\s+.*/PermitRootLogin yes/' /etc/ssh/sshd_config
RUN sed -ri 's/UsePAM yes/#UsePAM yes/g' /etc/ssh/sshd_config
RUN sed -ri 's/#   StrictHostKeyChecking ask/StrictHostKeyChecking no/' /etc/ssh/ssh_config

RUN mkdir /root/.ssh
RUN ssh-keygen -t rsa -P "" -f /root/.ssh/id_rsa
RUN cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys
 
ENV JAVA_HOME /usr/lib/jvm/java-8-openjdk-amd64
ENV JRE_HOME /usr/lib/jvm/java-8-openjdk-amd64/jre
ENV PATH /opt/hadoop-2.6.5/bin:/opt/hadoop-2.6.5/sbin:/usr/lib/jvm/java-8-openjdk-amd64/bin:$PATH
ENV CLASSPATH ./:/usr/lib/jvm/java-8-openjdk-amd64/lib:/usr/lib/jvm/java-8-openjdk-amd64/jre/lib

ADD hadoop-2.6.5.tar.gz /opt/
EXPOSE 22

CMD  ["/usr/sbin/sshd", "-D"]

Dockerfile 解析

  1. ubuntu 16.04 为基础镜像,开始开发之前一定要apt-get update。
  2. PermitRootLogin、UsePAM、StrictHostKeyChecking 有关SSH的配置。
  3. ssh-keygen 生成公钥,保存到authorized_keys中。
  4. 配置JDK,hadoop的环境变量。
  5. hadoop-2.6.5.tar.gz 保存到与Dockerfile同一个目录,会自动解压到/opt目录下。注意hadoop的环境变量基石/opt/hadoop-2.6.5/bin下。

编译镜像,其中wsn/ubuntu_ssh_java_hadoop是镜像的名字,其中.代表当前目录。

docker bulid -t wsn/ubuntu_ssh_java_hadoop .

四、HDFS 伪分布式

  HDFS系统中包括三种角色,namenode主控节点,datanode数据节点,secondenamenode主控节点的热备节点。伪分布式,就是在一台主机上启动3个进程,构建一套分布式系统。

  在单节点上配置伪分布式很简单,修改 hadoop-env.sh,core-site.xml,hdfs-site.xml 。 core-site.xml包含2个属性,其中namenode代表节点hostname、域名,换成ip也可以;hadoop.tmp.dir是hadoop工作目录(可以设置docker volumn,实现持久化)。

<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://namenode:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/tmp</value>
    </property>
</configuration>

hdfs-site.xml

<configuration>
  <property>
      <name>dfs.replication</name>
      <value>1</value>
  </property>
</configuration>

启动镜像

docker run --name namenode --rm wsn/ubuntu_ssh_java_hadoop 

最后2步:

/opt/hadoop/bin/hadoop namenode -format
/opt/hadoop/sbin/start-hdfs.sh start

查看系统状态,jps会看到3个进程namenode,secondnamenode,datanode。

一些简单hdfs命令,这些命令可以帮助你对hdfs系统的测试。

hdfs dfs -ls /
hdfs dfs -mkdir /test
hdfs dfs -put 1.txt /test

五、Docker特性

(一) 分层

  docker系统采用了分层的设计思想,在docker中运行的修改是不会自动保存,你可以调用commit生成新的镜像。或者采用挂载数据卷的方式,将数据和系统分类,实现数据持久化。

  刚刚接触Docker对分层的意义了解不深。在构建Dockerfile的时候,每个RUN命令会构建一个层,image按层存储,此时就产生不同的镜像引用了相同的层,节省了存储空间,实现image hub高效存储。

  docker挂载文件、文件夹命令。

docker -v 宿主机路径:container路径 image

(二)网络与内嵌DNS

在docker环境中,可以创建一个子网络

docker network create --subnet=172.18.0.0/16 hadoopnet

在第二节中讨论过,我们希望能过访问这个网络,在主机上添加路由信息

sudo route -n add 172.18.0.0/24 192.168.99.100

此时,我们可以创建一台绑定网段、ip的主机了,

docker run -it --name namenode --hostname namenode --network  hadoopnet --ip 172.18.0.11 wsn/ubuntu_ssh_java_hadoop

当我们创建一台docker主机,设置了name、ip时,内嵌DNS提供了name和ip的解析,省却了修改hosts文件的麻烦。

(三)免密码登录

  此例中,创建Dockerfile文件的时候,就生成了公钥,并写入authorize文件中。结果就是,所有的container的公钥都是一样的,而且写入了authorize文件,所以都实现了免密码登录。其实笔者不希望这样,对于docker的公钥问题留下待解决的问题。

  在构建Dockerfile的时候,ssh_config文件StrictHostKeyChecking no,设置在首次ssh登录的时候,不用询问。

The authenticity of host 'namenode (172.18.0.11)' can't be established. ECDSA key fingerprint is SHA256:4utoWe5uVp79ImYqkPPukjmrGIfvDC5demc1sx8sY9c. Are you sure you want to continue connecting (yes/no)? yes

(四)启动脚本

docker 容器有一个特性,当没有前台应用的时候,docker自动停止(这个设计有什么优势我还不知道)。

我们在创建dockerfile的时候配置了CMD ,就是系统运行后前台命令。如果run docker的时候,配置了start-hdf.sh 命令,那么就会遇到脚本运行结束docker自动停止。

解决方法,在本地创建一个.sh文件,在docker run 的时候挂载到container中,run 命令设置运行这个docker容器中的sh文件。

/etc/init.d/ssh start
/opt/hadoop-2.6.5/sbin/start-dfs.sh

六、分布式Hadoop环境

在本地建立4个文件目录,namenode、secondnamenode、datanode、datanode2。

(一) namenode文件夹:

  • hadoop
  • namenode.sh #启动脚本
  • run.sh #ssh start start-dfs.sh
  • data #挂载到/opt/tmp

hadoop文件夹是容器内/opt/hadoop/etc/hadoop的挂载文件 core-site.xml

<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://namenode:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/tmp</value>
    </property>
</configuration>

hdfs-site.xml,全部类型的节点都用这个配置,标注了namenode 和secondnamenode的域名/ip。

<configuration>
  <property>
      <name>dfs.replication</name>
      <value>2</value>
  </property>
  <property>
    <name>dfs.http.address</name>
    <value>namenode:50070</value>
  </property>
  <property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>secondnamenode:50090</value>
  </property>
</configuration>

slaves

secondnamenode
datanode

masters

secondnamenode

namenode.sh

docker run -it --name namenode --hostname namenode --network  hadoopnet --ip 172.18.0.11 -d -v $PWD/data:/opt/tmp -v $PWD/hadoop:/opt/hadoop-2.6.5/etc/hadoop -v $PWD/run.sh:/opt/run.sh --rm wsn/ubuntu_ssh_java_hadoop /opt/run.sh

run.sh,如果没有格式化目录,首先格式化目录。```bash``使终端有一个前台进程。

#!/bin/bash
if [ ! -d "/opt/tmp/dfs" ];then
    hadoop namenode -format
else
    echo "already format"
fi
/etc/init.d/ssh start
/opt/hadoop-2.6.5/sbin/start-dfs.sh
bash

(二)secondnamenode,datanode 启动命令

docker run --name secondnamenode --hostname secondnamenode --network  hadoopnet --ip 172.18.0.12 -d -v $PWD/data:/opt/tmp -v $PWD/hadoop:/opt/hadoop-2.6.5/etc/hadoop  --rm wsn/ubuntu_ssh_java_hadoop 
docker run --name datanode1 --hostname datanode1 --network  hadoopnet --ip 172.18.0.13 -d -v $PWD/data:/opt/tmp -v $PWD/hadoop:/opt/hadoop-2.6.5/etc/hadoop   --rm wsn/ubuntu_ssh_java_hadoop 

这个两个节点已经写到namenode的slaves文件,secondnamenode在配置文件hdfs-site.xml设置为secondary。当namenode启动start-hdf.sh时会通过ssh,启动secondnamenode上的secondname进程和datanode进程。datanode容器会启动datanode进程,此时可以通过web界面查看了。 (三)datanode2 启动

docker run --name datanode2 --hostname datanode2 --network  hadoopnet --ip 172.18.0.14 -d -v $PWD/data:/opt/tmp -v $PWD/hadoop:/opt/hadoop-2.6.5/etc/hadoop   --rm wsn/ubuntu_ssh_java_hadoop 

datanode2没有添加到namenode的slaves文件中,但是在datanode2的hdfs文件中配置了namenode和secondnamenode,所以datanode可以自动添加到HDFS系统中。

/opt/etc/hadoop/sbin/hadoop-daemon.sh start datanode

web,http://172.18.0.11:50070/dfshealth.html#tab-datanode

七、总结

Google 三篇论文,分别介绍了分布式文件系统、MapReduce、宽表。对应开源系统Hadoop中的HDFS、MapReduce、HBase。通过对HDFS系统的配置,了解了主从结构的网络,应该用什么样的配置文件。对HBase系统也有一些了解,在HBase中对master节点采用了zookeeper进行控制。

  • 大数据对系统结构搭建非常重视,实际工作中运维难度大。
  • Spark 是目前主流的大数据架构。

附录 docker 常用命令

image

案例一:启动nginx,绑定80到连接本地的8080端口

docker run -p 8080:80 -d nginx -d:后台运行,

案例二: 启动ubuntu

docker run ubuntu echo hello world 自动下载ubuntu ,并启动

案例三:替换docker 中文件

docker cp index.html containerId://usr/share/nginx/html

案例四:保存docker

docker commit -m "message" containerId 保存为一个新的image

案例五:dockerfile 文件创建docker image

FROM ubuntu   
MAINTAINER wsn
RUN apt-get update
RUN apt-get install -y nginx
copy index.html /var/www/html
ENTRYPOINT ["/usr/sbin/nginx","-g","daemon off;"]
EXPOSE 80

当前目录下运行命令 docker build -t wsn/ubuntu-nginx . wsn/ubuntu-nginx 作为容器的名字 案例六:docker分层 案例七:volumn 持久化

docker run -p 80:80 -d -v $PWD/html:/usr/share/nginx/html nginx

$PWD/html 挂载虚拟机的/usr/share/nginx/html目录下 案例八:进入docker虚拟机shell,-it交互方法

docker exec -it nginx  /bin/bash
本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!
本文分享自作者个人站点/博客:https://www.jianshu.com/u/ac619467fef3复制
如有侵权,请联系 cloudcommunity@tencent.com 删除。
登录 后参与评论
0 条评论

相关文章

  • Hadoop分布式文件系统(HDFS)

    HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬...

    大数据老哥
  • Hadoop分布式文件系统HDFS

    HDFS中的三种角色:namenode(核心节点),datanode(数据节点),客户端

    姜同学
  • Hadoop(2)——HDFS(分布式文件系统)

    英文全称是The Hadoop Distributed File System官方地址http://hadoop.apache.org/docs/stable/...

    羊羽shine
  • Hadoop技术(一)分布式文件系统HDFS

    明确 假设磁盘每秒读取500兆数据, 则1T内容需要2048s 约等于 30min

    时间静止不是简史
  • 【Hadoop研究】Hadoop分布式文件系统HDFS的工作原理详述

    Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。它能提供高吞吐...

    陆勤_数据人网
  • 【HDFS】分布式文件系统HDFS

    HDFS全称Hadoop Distributed File System,Hadoop分布式文件系统。它是2003年10月Google发表的GFS(Google...

    十里桃花舞丶
  • Hadoop HDFS分布式文件系统设计要点与架构

    1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构...

    黄规速
  • 分布式文件系统——HDFS

    HDFS源于Google发表的一份GFS论文,HDFS是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,可以运行在廉价机器上,具有高容错、高可靠...

    挽风
  • 分布式文件系统-HDFS

    大数据技术主要要解决的问题的是大规模数据的计算处理问题,那么首先要解决的就是大规模数据的存储问题。大规模数据存储要解决的核心问题有三个方面:

    王知无-import_bigdata
  • Hadoop基础教程-第3章 HDFS:分布式文件系统(3.2 HDFS文件读写)

    针对文件和目录,HDFS有与POSIX非常相似的权限模式。 一共提供三类权限模式:只读权限(r)、写入权限(w)和可执行权限(x)。读取文件或列出目录内容时...

    程裕强
  • Hadoop基础教程-第3章 HDFS:分布式文件系统(3.3 HDFS参数解读)

    Hadoop官方文档地址: http://hadoop.apache.org/docs/r2.7.3/

    程裕强
  • Hadoop基础教程-第3章 HDFS:分布式文件系统(3.4 HDFS集群模式)

    【2018-01-27补充】 感谢吴家行hang的提醒,这里node2和node3也要进行类似的环境变量配置。

    程裕强
  • 2021年大数据Hadoop(七):HDFS分布式文件系统简介

    在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统 。

    Lansonli
  • 案例:HDFS分布式文件系统

    L宝宝聊IT
  • 分布式文件系统 HDFS 简介

    兮动人
  • Hadoop基础教程-第3章 HDFS:分布式文件系统(3.5 HDFS基本命令)(草稿)

    HDFS命令官方文档: http://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hd...

    程裕强
  • 分布式文件系统(HDFS和FastDFS)

    FastDFS 是一个开源的高性能分布式文件系统(DFS)。 它的主要功能包括:文件存储,文件同步和文件访问,以及高容量和负载平衡。主要解决了海量数据存储问题,...

    剑行者
  • Hadoop hdfs完全分布式搭建教程

    1、安装环境 ①、四台Linux CentOS6.7 系统   hostname                ipaddress              ...

    IT可乐
  • Hadoop hdfs文件系统文件已存在 解决办法

    Hadoop 伪分布式环境时运行wordcount程序,已经运行过一次,在次将input文件夹中的内容上传hafs文件系统时会出现重复,但是还是可以上传成功。

    星哥玩云

扫码关注腾讯云开发者

领取腾讯云代金券