入门大数据必读

前言,学大数据要先换电脑:

保证电脑4核8G内存64位操作系统,尽量有ssd做系统盘,否则卡到你丧失信心。硬盘越大越好。

1,语言要求

java刚入门的时候要求javase。

scala是学习spark要用的基本使用即可。

后期深入要求:

java NIO,netty,多线程,ClassLoader,jvm底层及调优等,rpc。

2,操作系统要求

linux 基本的shell脚本的使用。

crontab的使用,最多。

cpu,内存,网络,磁盘等瓶颈分析及状态查看的工具。

scp,ssh,hosts的配置使用。

telnet,ping等网络排查命令的使用

3,sql基本使用

sql是基础,hive,sparksql等都需要用到,况且大部分企业也还是以数据仓库为中心,少不了sql。

sql统计,排序,join,group等,然后就是sql语句调优,表设计等。

4,大数据基本了解

Zookeeper,hadoop,hbase,hive,sqoop,flume,kafka,spark,storm等这些框架的作用及基本环境的搭建,要熟练,要会运维,瓶颈分析。

5,mapreduce及相关框架hive,sqoop

深入了解mapreduce的核心思想。尤其是shuffle,join,文件输入格式,map数目,reduce数目,调优等。

6,hive和hbase等仓库

hive和hbase基本是大数据仓库的标配。要回用,懂调优,故障排查。

hbase看浪尖hbase系列文章。hive后期更新。

7,消息队列的使用

kafka基本概念,使用,瓶颈分析。看浪尖kafka系列文章。

8,实时处理系统

storm和spark Streaming

9,spark core和sparksql

spark用于离线分析的两个重要功能。

10,最终方向决策

a),运维。(精通整套系统及故障排查,会写运维脚本啥的。)

b),数据分析。(算法精通)

c),平台开发。(源码精通)

自学还是培训?

无基础的同学,培训之前先搞到视频通学一遍,防止盲目培训跟不上讲师节奏,浪费时间,精力,金钱。

有基础的尽量搞点视频学基础,然后跟群里大牛交流,前提是人家愿意,

想办法跟大牛做朋友才是王道。看浪尖的文章,跟着文章思考操作。

原文发布于微信公众号 - Spark学习技巧(bigdatatip)

原文发表时间:2018-06-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏IT米粉

Apple 系统正式版要发布了,有你期待的功能吗?

Apple操作系统每年例行升级时间到,每年都说的那么牛B,不管是IOS还是Mac os功能已经曝光的差不多了,你需要的功能有出现吗? 每年对系统的升级,其实还是...

3196
来自专栏IT笔记

给大家推荐8个SpringBoot精选项目

2017年,曾在自己的博客中写下这样一段话:有一种力量无人能抵挡,它永不言败生来倔强。有一种理想照亮了迷茫,在那写满荣耀的地方。

1141
来自专栏Hongten

不使用 Ruby 的十个理由

请注意:这是一篇主观意识的文章。它的目的并不是要说服你使用或者不使用Ruby,或者其他任何技术。这篇文章所涉及到的环境是 Web 开发,而不是通用的编程。我想...

2.6K1
来自专栏ASP.NET MVC5 后台权限管理系统

ASP.NET MVC5+EF6+EasyUI 后台管理系统(69)-微信公众平台开发-功能概述

为什么要先发这个文章? 因为接下来的文章是关于微信开发的系列,心中一定要有一个概念,知道自己接下来要做什么功能。 而且微信到处都是坑,我首先要把微信与本地跑...

3598
来自专栏IT大咖说

如何玩转Android物联网开发,这些必须知道

内容来源:2018 年 6 月 28 日,中移物联网 Android开发高级工程师程磊在“droidcon上海2018安卓技术大会”进行《当安卓遇到物联网》演讲...

2.2K2
来自专栏Material Design组件

今后设计可注意的点

给用户一份精美小礼品这样的友好举动再好不过了。具体来讲,送出礼品也是之有效的获得客户忠诚度的战术,这是建立在人们互惠准则上的。而这样做所带来的好处也是显而易见的...

1034
来自专栏沃趣科技

降低保险行业TCO成本最好的方式是……

时至今日,“虚拟化”,“云”等名词早已耳熟能详,其提供的特性:将服务器物理资源抽象成逻辑资源,可以将一台服务器变成几台甚至上百台虚拟服务器;将CPU、内存、磁盘...

1535
来自专栏CSDN技术头条

P语言: 为异步、容错和不确定性而生的编程语言

译者注:P语言是一款由微软、加州大学伯克利分校和伦敦帝国学院共同研发完成的编程语言,它在处理并发、故障切换等方面具有很强的优势。本文介绍了P语言的起源、特性及其...

2286
来自专栏云加头条

电商月将至,腾讯云DCDB助力电商企业应对支付洪峰

第34届中国数据库学术会议(NDBC 2017)已于2017年10月20日至22日在浙江大学举办。本次会议,腾讯云带着其分布式数据库 DCDB(内部代号TDSQ...

2390
来自专栏IT大咖说

全面讲解如何快速开发腾讯云小游戏

内容来源:2018 年 08 月 25 日,腾讯游戏云产品总监王永和在“腾讯云GAME-TECH游戏开发者技术沙龙 小游戏”进行《腾讯云小游戏解决方案》演讲分享...

5614

扫码关注云+社区

领取腾讯云代金券