入门大数据必读

前言,学大数据要先换电脑:

保证电脑4核8G内存64位操作系统,尽量有ssd做系统盘,否则卡到你丧失信心。硬盘越大越好。

1,语言要求

java刚入门的时候要求javase。

scala是学习spark要用的基本使用即可。

后期深入要求:

java NIO,netty,多线程,ClassLoader,jvm底层及调优等,rpc。

2,操作系统要求

linux 基本的shell脚本的使用。

crontab的使用,最多。

cpu,内存,网络,磁盘等瓶颈分析及状态查看的工具。

scp,ssh,hosts的配置使用。

telnet,ping等网络排查命令的使用

3,sql基本使用

sql是基础,hive,sparksql等都需要用到,况且大部分企业也还是以数据仓库为中心,少不了sql。

sql统计,排序,join,group等,然后就是sql语句调优,表设计等。

4,大数据基本了解

Zookeeper,hadoop,hbase,hive,sqoop,flume,kafka,spark,storm等这些框架的作用及基本环境的搭建,要熟练,要会运维,瓶颈分析。

5,mapreduce及相关框架hive,sqoop

深入了解mapreduce的核心思想。尤其是shuffle,join,文件输入格式,map数目,reduce数目,调优等。

6,hive和hbase等仓库

hive和hbase基本是大数据仓库的标配。要回用,懂调优,故障排查。

hbase看浪尖hbase系列文章。hive后期更新。

7,消息队列的使用

kafka基本概念,使用,瓶颈分析。看浪尖kafka系列文章。

8,实时处理系统

storm和spark Streaming

9,spark core和sparksql

spark用于离线分析的两个重要功能。

10,最终方向决策

a),运维。(精通整套系统及故障排查,会写运维脚本啥的。)

b),数据分析。(算法精通)

c),平台开发。(源码精通)

自学还是培训?

无基础的同学,培训之前先搞到视频通学一遍,防止盲目培训跟不上讲师节奏,浪费时间,精力,金钱。

有基础的尽量搞点视频学基础,然后跟群里大牛交流,前提是人家愿意,

想办法跟大牛做朋友才是王道。看浪尖的文章,跟着文章思考操作。

原文发布于微信公众号 - Spark学习技巧(bigdatatip)

原文发表时间:2018-06-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏phodal

RePractise: 从真实世界到前后端的设计

RePractise终于又迎来了新的一篇,要知道上一篇可是在半年前呢——《Repractise前端篇: 前端演进史》。照RePractise惯例,这又是一篇超长...

1807
来自专栏编程

程序员提高编程能力万无一失的办法

那就是去读别人写的代码。读那些你常用的库、编程框架的源代码,读那些你景仰的大牛的源代码,读代码里的测试(测试本身就是一种有效的文档);读代码、改代码、运行代码。...

2099
来自专栏带你撸出一手好代码

如何正确使用缓存技术

缓存技术是用来提升程序运行性能的常见手段,君不见, 阿里巴巴、新浪微博、美团网等互联网龙头企业都是用缓存技术来提升自己家网站的性能。然而,任何事物都有两面性, ...

3196
来自专栏携程技术中心

干货 | 携程第四代架构探秘之运维基础架构升级(上)

作者简介 本文由携程技术中心框架研发部吴其敏、王兴朝,技术保障中心高峻、王潇俊、陈劼联合撰写。 作为国内最大的OTA公司,携程为数以亿计的海内外用户提供优质的旅...

32710
来自专栏老九学堂

如何编写没有bug的代码?

我记不了很多东西。像标准库中的函数和方法、参数位置、软件包名称,样板代码等等,都在我脑容量之外。

581
来自专栏SeanCheney的专栏

《Learning Scrapy》(中文版)第1章 Scrapy介绍HelloScrapy喜爱Scrapy的其它理由关于此书:目标和用法掌握自动抓取数据的重要性开发高可靠高质量的应用 提供真实的开发进

本书作者使用的Scrapy版本是1.0.3。感兴趣的话,还可以看看Scrapy1.4最新官方文档总结。 ---- ? 下载本书代码:https://git...

2614
来自专栏非著名程序员

听说 Flutter 最近要多火爆就有多火爆,那就推荐一个不错的系列文章吧

就在上上周Flutter 发布首个预览版,Flutter 是谷歌的移动 UI 框架,可以快速在 iOS 和 Android 上构建高质量的原生用户界面。 Flu...

1284
来自专栏Java学习网

不要浪费时间写完美代码

 一个系统可以维持5年,10年,甚至20年以上,但是代码和设计模式的生命周期非常短,当对一个解决方案使用不同的方法进行迭代的时候,通常只能维持数月,数日,甚至几...

2685
来自专栏Java架构

前阿里P8架构师:精准定制Java架构师学习计划!

可以说,Java是现阶段中国互联网公司中,覆盖度最广的研发语言,掌握了Java技术体系,不管在成熟的大公司,快速发展的公司,还是创业阶段的公司,都能有立足之地。

812
来自专栏IT派

高级工程师的晋升之路:如何用 JavaScript 打造十亿级的应用

我以前开发过超大规模的JavaScript应用。现在我不做了,所以我觉得应该回顾下我学到的东西。昨天我在宴会上喝啤酒时有人问我,“嗨Malte,你为什么要来讲这...

632

扫码关注云+社区