想从事大数据、海量数据处理相关的工作,如何自学打基础?

想做数据处理尤其是大数据量处理的相关工作必须兼具计算机科学基础和统计基础。 现在有一个高大上的职业叫数据科学家,有人说数据科学家就是一个比程序员更懂统计的统计学家,一个比统计学家更会编程的程序员。觉得说得很形象。

考虑到你还是在读本科生,有很多知识和课程还需要作为基础来学习和巩固。

大数据QQ群:716581014 共同进步学习

基础中的基础: 线性代数,概率论

核心知识: 数理统计 预测模型 机器学习

计算机:

  • 数学软件:强大矩阵运算和优化功能的matlab,专而精的mathematica。
  • 语言:python(很流行的科学语言,潜力也很大,ipython这样交互式环境十分有利),fortran(强大的计算语言,充分优化的现成代码),R(相比于matlab,java,c,R是个高富帅)
  • 可视化

这是数据分析各类语言使用度的图表,R占的比例还是相当高啊。想利用现在动辄TB级的数据大显身手,光靠excel可不够啊。你真的需要写很多代码…

统计:时间序列分析 应用回归(很简单,亦很实用) 多元统计分析

1. 自己装个小集群跑hadoop/hive,可以到cloudera网站上下现成的打包虚拟机。看看hadoop in action. 这本书比权威指南容易懂很多。

2. 装个cassandra什么的玩玩,在上面架个小项目,比如留言板什么的。。

3. 读一些著名的paper,nosql的或者mapreduce。

4. 看看apache hadoop家族的其他几个项目,比如zookeeper,pig,了解一下生态圈

到这里为止你大概有个概念,知道bigdata怎么回事了

找个开源项目,看看ticket list,看看能不能自己修。。

能的话看看能不能混进项目组 个人觉得,大数据要靠实践多一点。在真的上百上千节点的cluster上跑hadoop和自己虚拟机架的完全不同。cluster

上跑各种奇葩的事情单机都是碰不到的。。就好比dba靠读书考证很难牛屄一样。所以最终还是要找个公司实战。。不

过如果上面几个都做到的花,基本上应聘大数据公司问题不大了。 ---------------------------------- 做大数据平台工作现在满一周年多几天,再看上面的答案觉得说得不是很到位。

在国内的环境下,似乎还是Hadoop用得更多,其他更fancy的东西比如presto/spark什么的,湾区也算是新鲜事物,

并不是很多公司都在用(也有原因是真的适用的公司也不算太多了)。更实际节省的做法是,学Hadoop,至少要了解

系统架构和数据的流向,比如怎么partition,怎么shuffle,combiner怎么work之类的大概念,对入门人士面试官大

多也就是面这些,不会问太深,再深入的问题,是留给有行业经验的人的。对刚入门想入行的人,知道上面这些,再

写写类似Word Count(大数据版的helloworld),之类的有个实际概念,就可以找公司面着玩看了。

其他东西可以都了解个皮毛,跟上社群的演进。大数据更多是工程的东西,不是那么学术,多看看比深挖一个对初学

者更有好处。每个工具被发明,都是解决一个特定问题的,大数据没有一个产品是万能的,都是解决某个特定问题来

的,看到新鲜事物就想想为什么需要这样的工具,背后有什么需求。

比如有了Hive为什么facebook还要搞Presto;为什么Hadoop 2.0要做Yarn。看的时候多想想这个,视野就会更开阔。 建议如果想深入学习,没有什么比找个真的做相关行业的公司来的靠谱了。工程的东西,尤其是这样新鲜出炉的工程

领域,光看书看资料是没有任何用处的,你很难了解每个技术背后的关键,也很难了解实践中会遇到的问题。我之前

打杂过的实验室,到处找客户免费用他们的产品,每个出去的学生都会义务跟雇主推荐实验室的产品,为什么,因为

没有真的在PB级别的数据上跑,你就不知道哪里设计有问题。你深入看一个项目,就会发现,其实用得技术没什么新

鲜深奥的,比如你看Hive或者Presto,会发现用到的技术,在Query引擎领域只能算是入门级的知识,传统数据库厂

商都用了几十年了。真正好玩的是,每个Feature设计是如何切入大数据这个背景的。

所以说,没有比找一家公司真的干一段时间更能让你了解大数据的了。当然请别被忽悠去拿大数据做噱头的公司了。

现在有些公司招聘,就算不用hadoop也会往上写,反正去了老板会说,现在数据不够,以后肯定会需要Hadoop的。

以上都是关于平台方向的,数据方向的我完全不懂。

大数据学习群:716581014 大数据时代,专注大数据分析方法,大数据编程,大数据仓库,大数据案例,人工智能,数

据挖掘,AI等大数据内容分享交流。不定期举办线上线下大数据内容分享活动。同时有R语言,Python语言mysql

Spss SAS 等知识课件和内容分享。Hadoop spark linux Hive等知识分享.

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

业界 | 腾讯「AI In All」的背后,是开放AI技术能力,探索腾讯内外的应用场景

2768
来自专栏CDA数据分析师

李飞飞丨谷歌在 AI 领域的强势举措

? 李飞飞在谷歌 Cloud Next 17上发表主旨演讲。她在会上发布了谷歌云面向机器学习和人工智能的一系列新API 以及收购机器学习竞赛平台 Kaggle...

2107
来自专栏CSDN技术头条

工作中,你真的会表达数据吗?

来源 | 《用数据讲故事》 我们要的不是数据,而是数据告诉我们的事实 在幻灯片中,数据的作用一直很受重视。在工作场合,饼图、柱形图、条形图、折线图、散点图充斥在...

2973
来自专栏腾讯研究院的专栏

智能监控面临更大挑战 大数据处理需改善

在智慧城市、平安城市大的发展潮流下,人们对于自己居住的环境要求也逐渐提升,不少消费者开始关注家庭级安防产品,一方面是应对用户日渐苛刻的需求,而另一方面也是减少...

3488
来自专栏新智元

【独家】贾佳亚教授正式加盟腾讯优图,计算机视觉大师的光荣与梦想

【新智元导读】 张潼、俞栋之后,腾讯又迎来一名AI大师,计算机视觉的领军者——香港中文大学终身教授贾佳亚正式全职加入。2017年5月13日,在腾讯正式宣布贾佳亚...

3717
来自专栏AI科技大本营的专栏

科技公司开始重视AI伦理,他们都是怎么做的?

风口浪尖上的 Facebook 在刚刚结束的 F8 开发者大会上宣布,将组建一个专门的 AI 伦理团队跟公司里各项产品和服务合作,以此来保证 AI 的公正性。

942
来自专栏大数据文摘

你了解数据科学家有几类吗?

1353
来自专栏AI科技评论

动态 | DeepMind 首次披露旗下专利申请情况

近日,DeepMind首次披露了一系列国际专利,这些专利涉及了现代机器学习的一些基础方面,对在人工智能领域进行商业化的任何人都有着潜在的意义。

1414
来自专栏AI科技评论

微软人工智能首席科学家邓力:口语对话系统的分类及三代演变

编者按:邓力博士原为加拿大滑铁卢大学教授,1999 年加入微软,2016 年起担任微软首席人工智能科学家,负责微软深度学习技术中心应用趋向的深度学习研究。 在上...

3457
来自专栏PPV课数据科学社区

未来是数据科学的时代,也是数据科学家的时代

你擅长数学和数据分析,同时会用Python/R语言编程吗?如果你拥有这样的技能组合,那你就有可能成为数据科学家。 ? 无论是在国内还是国外,数据科学都是目前最炙...

34610

扫码关注云+社区