首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何学习spark大数据

一、大数据的结构

整个大数据体系发展了这么久,其实包含了太多太多的东西了。按照数据的流程大概分为以下几个大的部分

1、数据通道

传输数据用的,将不同数据源的数据导入数据中心,数据中心处理完了之后通过这个通道输出到其他的不同数据介质去给各产品业务进行使用。这部分的组件典型的Kafka、sqoop之类的,当然很多组件也可以做类似的事情。这其中也会有很多需要考虑的事情,比如数据抽取增量还是全量,如果数据量太大是不是需要分区,分区的话应该怎么划分数据,抽过来的数据怎么和历史的数据融合等各种问题。

2、数据储存&查询

数据储存hdfs已经给出了很好的解决方案,但是还是会有很多问题,比如小文件太多的问题。hive呢给hdfs的文件加上了源数据更方便的进行管理,而数据仓库技术又是更大的一块研究怎么管理数据的技术。

3、数据计算

数据计算是大数据最最重要的一部分了,90%的工作都应该体现在这里,其他的基本都算基础设施了。组件上可以分出实时计算和批量计算,而数据挖掘技术就是使用这些计算工具设计各种牛逼的算法,将你的数据精选打磨和挖掘,从中挖出价值。

4、数据可视化

这部分就是数据分析了,利用数据统计画出各种炫酷的图标,直观的呈现数据所蕴含的世界的真理。

5、分布式管理

大数据就是大数据量太大,而我们使用很多机器协同处理,带来的额外的代价就是,如何管理这些机器上的资源。

6、任务管理

数据量大导致很多程序不能很快跑完,而要跑的程序又很多,相互直接还有各种不同的依赖关系,就又带来了任务管理的难题。

7、数据管理

大数据中心基本会收集整个公司所有的数据,而且这些数据经过数据又会产生新的数据,而这么多数据的管理就成了问题。

二、如何学习

看来上面这些内容是不是发现大数据的范畴实在宽,自己掌握的太少,又焦虑了几分呢。没关系让曾二爷来一步步带你学习了解大数据。

2.1 学习计划

我们的学习计划分下面这几条主线

1、精通spark源码系列

这条线我们会从源码入手,深入浅出了解整个spark计算框架,看看一个分布式的计算系统是如何设计出来的,这对我们的编码能力、架构能力等能力都会有系统性的提升。

2、大数据相关内容

这条线我们会介绍一些碎片化的大数据知识,当然虽然是碎片化的,但是我们主题是有个框架的,这些碎片将在这个大的框架下组织成完整的一部分,前面数据讲的内容便是框架的一部分,后面将一步步细化完善这个框架。

3、每周一题

这条线我们将每周出一道大数据题目,都是真实的题目哦,锻炼大家在处理问题方面的能力。

4、思想方法论

这条线当然是一条辅助线,帮助大家在学习技术之余,进行娱乐、提高思想方法论的思考、职场鸡汤等。

2.2 start learning

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190127G0P6FM00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券