前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据入门:Hadoop伪分布式集群环境搭建教程

大数据入门:Hadoop伪分布式集群环境搭建教程

作者头像
成都加米谷大数据
修改2021-06-23 18:10:13
6910
修改2021-06-23 18:10:13
举报
文章被收录于专栏:大数据开发大数据开发

在大数据的学习过程中,对于集群的掌握,从理论到实操都是要熟练的。然而很多小伙伴在学习之初,往往遇到这样那样的问题。今天我们就从大数据入门的角度,来分享一份Hadoop伪分布式集群环境搭建教程。

集群入门
集群入门

我们以三台虚拟机为例来做练习,在电脑性能有限的情况下,搭建三台虚拟机还是可行的。

三台虚拟机中有一台用作master,即主节点,用于Hadoop的NameNode节点(NameNode的主要功能是记录数据的元信息,如表字段、表名称、数据块id等);

三台虚拟机中有两台用作slave,即从节点,用于Hadoop的DataNode节点(DataNode的主要功能是存储数据内容和读写数据,通常一个数据块是128M);

三台虚拟机之间能够互相通信,同时虚拟机与PC机也能够通信;

接下来,我们就开始一步步地完成Hadoop集群的搭建——

第一步:配置网络

为了能够使PC机与虚拟机之间通信,必须将PC机和虚拟机的IP设置到相同的网段。如果希望虚拟机也能够联网,还需要将PC机和虚拟机的网关保持相同。所以,需要配置PC机和虚拟机的网络。

第二步:固定Linux系统的IP地址

设置好网卡后,最后还需要配置Master节点(即虚拟机中一台Linux系统的电脑)的IP、网关和子网掩码,具体操作如下:

输入:

vim/etc/sysconfig/network-scripts/ifcfg-eth0

删除etho网卡中的UUID值(唯一识别码)、HWADDR(MAC地址)值和LAST_CONNECT(最近一次连接时间)值,如果不删除的话,会影响后面虚拟机的克隆。

把eth0网卡中的BOOTPROTO设置为static(即表示静态IP),此外再增加静态的IP地址(网段必须与PC机一致)、网关、子网掩码和DNS服务器。

第三步:测试PC机与虚拟机之间的通信

虚拟机(192.168.8.100)可以ping通PC机(192.168.8.88),同时虚拟机也可以ping通baidu(说明可以连接网络)。

第四步:关闭防火墙和selinux

为了防止不必要的麻烦,使后续hadoop集群搭建更加地顺利,最好把虚拟机的防火墙关闭,命令如下:

chkconfig iptables off

为确保万无一失,还需要配置/etc/sysconfig目录下的selinux文件。

重启虚拟机,并验证防火墙是否成功关闭。

第五步:修改主机名

虚拟机需要将其重新修改为master,目的是区别分布式集群中的主节点(master)和从节点(slaves)。修改主机名需要配置/etc/hosts文件和/etc/sysconfig/network这两个文件,修改好这两个文件后,只需要重启虚拟机,便可以发现计算机的名称已经被修改了。

第六步:克隆虚拟机

如上操作仅仅是在配置一台master的计算机,在前文我们已经提到,hadoop集群将架构在一台master和两台slaves之上,故还需要创建两台虚拟机。创建过程只需要克隆即可。

克隆过程是非常简单的,在VMware的主页,右击一台虚拟机,选择管理中的克隆(选择完整克隆哦),然后下一步,设置虚拟机的名称和安装地址,最后点击完成静静地等待它完成克隆。

但是问题来了,克隆的slave1机器无法联网,这是因为在克隆的时候,新的网卡eth1覆盖了eth0。

解决问题的方法很简单,只需要配置/etc/udev/rules.d/目录下的70-persistent-net.rules文件即可,先看一下该文件的内容:

配置时,将第一行的内容注释掉(即在第一行SUBSYSTEM前面加上#号),然后再将第二行的eth1值改为eth0值。

配置克隆虚拟机的eth0网卡

输入:vim/etc/sysconfig/network-scripts/ifcfg-eth0,将IP地址修改为192.168.8.101。

第七步:修改克隆虚拟机的名称

配置/etc/hosts文件和/etc/sysconfig/network文件,将虚拟机的名称修改为slave1。同理,安装克隆slave1的方式再克隆一台虚拟机,并将计算机的名称修改为slave2。

最后,在Shell5中同时连接三台虚拟机,测试三台虚拟机之间的通信状况,互相之间可以实现网络通信,同时也都可以连接互联网,就算是成功了。

总的来说,在大数据学习当中,学会搭建集群环境是非常关键的一步,下一步则是进入大数据技术框架的学习了。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据处理套件 TBDS
腾讯大数据处理套件(Tencent Big Data Suite,TBDS)依托腾讯多年海量数据处理经验,基于云原生技术和泛 Hadoop 生态开源技术提供的可靠、安全、易用的大数据处理平台。 TBDS可在公有云、私有云、非云化环境,根据不同数据处理需求组合合适的存算分析组件,包括 Hive、Spark、HBase、Flink、Presto、Iceberg、Elasticsearch、StarRocks 等,以快速构建企业级数据湖仓。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档