10分钟大数据Hadoop基础入门

前言

目前人工智能和大数据火热,使用的场景也越来越广,日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解。

基础概念

大数据的本质

一、数据的存储:分布式文件系统(分布式存储)

二、数据的计算:分部署计算

基础知识

学习大数据需要具备Java知识基础及Linux知识基础

学习路线

(1)Java基础和Linux基础

(2)Hadoop的学习:体系结构、原理、编程

第一阶段:HDFS、MapReduce、HBase(NoSQL数据库)

第二阶段:数据分析引擎 -> Hive、Pig

第三阶段:HUE:Web管理工具

(3)Spark的学习

(4)Apache Storm 类似:Spark Streaming ->进行流式计算

NoSQL:Redis基于内存的数据库

HDFS

分布式文件系统 解决以下问题:

管理员:NameNode 硬盘:DataNode

MapReduce

MapReduce数据流程分析:

HBase

什么是BigTable?: 把所有的数据保存到一张表中,采用冗余 ---> 好处:提高效率

Hadoop环境搭建

环境准备

Linux环境、JDK、http://mirrors.shu.edu.cn/apache/hadoop/common/hadoop-3.0.0/hadoop-3.0.0-src.tar.gz

安装

1、安装jdk、并配置环境变量

2、解压hadoop-3.0.0.tar.gz、并配置环境变量

vim /etc/profile 末尾添加

配置

Hadoop有三种安装模式:

我们以伪分布模式为例配置:

修改hdfs-site.xml:冗余度1、权限检查false

修改core-site.xml

修改mapred-site.xml

修改yarn-site.xml

格式化NameNode

看到

表示格式化成功

启动

start-all.sh

(*)HDFS:存储数据

(*)YARN:

访问

(*)命令行

(*)Java Api

(*)WEB Console

HDFS: http://192.168.56.102:50070

Yarn: http://192.168.56.102:8088

查看HDFS管理界面和yarn资源管理系统

基本操作:

HDFS相关命令

MapReduce示例

结果:

如上 一个最简单的MapReduce示例就执行成功了

思考

Hadoop是基于Java语言的,前端日常开发是用的PHP,在使用、查找错误时还是蛮吃力的。工作之余还是需要多补充点其它语言的相关知识,编程语言是我们开发、学习的工具,而不应成为限制我们技术成长的瓶颈!

∞∞∞∞∞

IT派 -

持续关注互联网、区块链、人工智能领域

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180720B0889N00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券