首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大数据学习路线图

一、概述

本文针对想学习大数据技术从事大数据开发的人员总结了一套专业的学习路线图。大体可以分为以下个阶段七个阶段:入门知识学习阶段 基础程序语音学习 Hadoop生态体系学习 分布式计算框架(Spark核心技术) 实时计算框架 大数据常用组件学习 大数据项目实战。

在后续的文章中,我将陆续将各个阶段的学习资料和教程进行整理和发布。希望大家通过我文章的引导加上自身的学习新手小伙伴能够快速的熟悉大数据体系,有一定经验的程序猿们也能对自己的知识体系进行一便梳理。

二、入门知识学习阶段

该阶段主要对新手学习人员进行一些基础编程知识进行普及,了解最基础的开发环境组件。

详细学习内容:

1.linux体系学习2.Git 实战教程3.MySQL 基础课程4.MongoDB 基础教程5.Redis基础教程三、基础程序语言学习1.SQL语句学习2.JAVA基础3.J2EE开发4.Scala基础四、Hadoop生态体系学习

本阶段学习hadoop生态体系的基础知识,包括hdfs,Mapreduce,Hive,Hbase,Zookeeper等等

五、分布式计算框架(Spark核心技术)

本阶段将深入学习目前主流的分布式计算框架spark

六、实时计算框架

1.消息系统:Kafka2.spark-streaming3.storm4.Flink七、大数据常用组件学习1.日志收集:Flume2.数据同步:Sqoop3.任务调度:Oozie,azkaban4.搜索和数据分析引擎:ElasticSearch5.数据挖掘、机器学习八、大数据项目实战

在这里还是要推荐下我自己建的大数据学习交流群:943791324,群里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据软件开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴加入。

为什么一开始的入门要学习编程,要这样安排?

这就跟问学习为什么要学会拿画笔、学习音乐为什么要练发声一样,因为它是基础啊!

学习大数据,不能只看数据,不能只设计算法,关键是要通过编程把算法来实现,看算法是否对数据有一定的效果。如果不学一门语言,你就不能和计算机对话,就没有办法让计算机来处理数据,也就不能证明你的想法和算法的有效性和准确性。

既然编程是基础,重要性就不用加米谷在多说了吧,一定要学好哦。

2、编程语言学习之后,着手学习什么呢?大数据基础,Linux、Maven基础

why?加米谷知道肯定会有人问为什么。因为Linux 作为操作系统,本身是为了管理内存,调度进程,处理网络协议栈等。大数据的发展是基于开源软件的平台,Linux占据优势, 大数据的分布式集群( Hadoop,Spark )都是搭建在多台 Linux 系统上,对集群的执行命令都是在 Linux 终端窗口输入的。

当然你也可以把这部分内容放在编程语之前学习也是可以滴!

3、then,学啥子呢?可以开Hadoop体系的学习啦!

大数据比较通用的平台是基于Hadoop+Saprk ,那为什么不先学习Spark呢,因为学习Spark之前需要先学习Scala呀,那怎么不先学习Scala呀,你的Java学牢实了吗,练手试过没有呀?

除了这个原因,其实还因为大数据平台Hadoop就是采用Java语言实现的,在Hadoop下采用Java语言也是一个比较常见的选择。Java学习完成后,进一步学习Hadoop平台的相关知识,最后在Hadoop平台下采用Java完成任务开发。这样就可以阶段性的两部分内容联系起来,既学习了理论知识,也算实践上手训练了一波。

4、然后,你们是不是在学完Hadoop后就想立即进入Spark的学习了呢?别着急,大数据技术的学习还需要掌握Scala,为什么呢,Spark要用啊。

Hadoop学习之后,还得学习Spark,它是一种与 Hadoop 相似的开源集群计算环境,拥有Hadoop MapReduce所具有的优点,Spark是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补MapReduce的不足。这是大数据技术学习的两大重点。

但是学习Spark之前,还要学习一门语言,叫Scala。Scala在大数据方向不是偏科研的,是非常多地方都会用的,比如说spark。

不过在学习Scala之前,你最好先对Java和任一函数式语言(Haskell,SML等)有一定程度理解以后,尤其是能够在编程范式之间随意切换以后,再去了解Scala。

Scala的好处:

JVM base, 全面兼容Java. 对于Java基础扎实的同学, 学习Scala是很友好的;

在常用工具中, Flume和Hadoop由java编写, Spark和Kafka由Scala编写。

Scala作为一门较新的语言,它的社区是比较混乱的。Scala社区里有很多不同的尝试,以Java一支和Haskell一支为主,此外还有使actor和reactive programming一派的。你如果连一个已经成熟的编程范式都没有掌握,我觉得很大可能你会吃不消Scala。

5、这步真的可以学习Spark啦!

Spark的重要性加米谷已经在前文中说过了,那就不多说了,大家撸起袖子,认真学起来吧!

6、来个真实项目实战练手

市场上主流的大数据技术都学习过一遍了,怎么能不来个真实项目练练手,在实战环境中去练习,看看自己掌握的程度如何,技术之间的衔接和融合运动卡不卡壳,存在哪些问题需要解决等等。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200329A0BAXD00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券