00:05
各位学员大家好,欢迎大家学习大数据免费系列课程,现在我们来学习第一课大数据基础入门,在本讲课程当中我们会学习到哪些具体的知识呢?我们会把本节课比较重要的内容给大家记录下来,方便大家课后的复习。那么在我们第一讲大数据基础入门的课程当中,我们将会给大家介绍以下四部分的内容。首先第一个就是我们为什么要学习大数据,第二个就是到底什么是大数据,我们会通过两个具体的例子来给大家做详细的介绍,那么在第三讲的课程当中,我们会来给大家介绍Java和大数据到底是一个什么样的关系,了解到这些基本的内容以后,那么我们如何学习大数据呢?需要什么样的基础?学习的路线又是什么样子的?这就是在本讲课程当中我们将给的。
01:07
给大家介绍的详细的内容,首先我们看一下第一节,我们为什么要学习这个大数据呢?那么学习大数据主要的目的呢?当然就是为了什么获得一份什么很好的什么很高或者很好的什么这个工作,那么既然我们可以做一个对比,那么我们来对比一个什么,我们来对比一下传统的这个Java开发。Java开发的工作和我们什么大数据啊。开发的这个工作,那么他们在这个待遇上面会有什么样的一个区别,而我们的讲义上面实际上有一个什么截图,我们来简单的看一下,那么我们为什么要学习大数据?那么刚才我已经提到了,实际上就是为了找到一份更好的工作,有一个更好更好的一个什么收入,相信这张图大家都明白是什么意思,那么现在我们就来对比一下,如果我们做传统的Java开发和做我们大数据的开发,在待遇上会有一个什么样的一个区别呢?那么在这张图的左边是。
02:13
列出来了我们Java开发的一些职位,以及它相关的一些什么待遇的一些情况,那么这些信息大家可以在网上很容易的就能搜索到,比如说我们在做Java开发的时候,一般来讲工作经验在三到五年左右的一个什么工作经验,那么他的待遇呢,大概是25K到什么30K这个左右,好那么这次做传统的Java开发,而做大数据的开发,比如说我们做哈大开发,或者做Spark的开发,那么我们可以看到同样的这种什么工作经验啊,那么三到五年他的待遇呢,可能就需要都会比这个什么比传统的Java开发的待遇呢,需可能需要什么高一点点,所以呢,这就是我们要什么,为什么要学习大数据的最主要的一个什么目的,当然目前我们在it行业当中,它的发展的方向也是一个什么大数据的一个方向,那么所以呢,这就是我们为什么要学习大数据的什么最主要的一个原因,那么了解的这个内容。
03:13
好。接下来的一个问题就是到底什么是大数据呢?那么大家如果去百度一下,那么网上关于大数据的定义呢?实际上有很多很多的说法,我们在这个地方给大家举两个例子,那么通过这两个例子相信大家就明白了什么是大数据。好,我们举的第一个例子是什么?商品推荐。那么我们举的第二个例子呢,就是我们什么天气这个预报,尽管这两个问题是完全不同的两个问题,但是他们都可以来告诉我们什么是大数据,以及大数据的本质是什么。首先我们来看一下第一个问题,商品的推荐,比如说我现在我是一个电商的一个网站,比如说是淘宝或者京东这样子的网站,我们打开他的首页就能看到很多推荐的信息,好,现在呢,我们打开我们的这个浏览器,比如说我们以京东为例,那么这次京东的什么官方的网站的首页,那么在这个首页上我们就可以看到有很多推荐的什么商品信息,那么现在。
04:17
我想实现一个功能,就是把过去这一个月当中卖的好的商品通过一种方式找到,然后呢放在我的这个网站的首页,那么这样子,当我的用户打开了这个我的网站首页,就能够看得到在过去这一个月当中,哪些商品卖的好,哪些商品卖的这个不好,那么这就是一个商品推荐的一个问题,那么它也是一个非常典型的一个大数据的应用问题,那么需求非常的简单,但是。我们要把它给做出来,会涉及到什么样的问题呢?首先第一个问题,我们要把过去这一个月当中卖的好的商品给找到,那么我们可以试想一下,在过去这一个月当中。
05:04
我这个京东或者淘宝这个网站,我要基于这个历史的订单来进行分析,那么在这一个月当中的订单有多少呢?这肯定一个很大的一个什么数量,那么我们要做商品的推荐呢?第一个问题就是大量的订单我们如何什么如何存储,那么你采用一种什么方式把它给存下来啊,这是第一个问题,那么假设下我们已经有有了一种方式把过去这一个月的订单数给存,给存下来,那么第二个问题就是你如何来计算呢?如何去找到在这一个月当中卖的好的商品呢?所以呢,商品推荐的第二个问题就是有什么问题呢?大量的订订单如何计算的一个问题,所以呢。把这两个问题如果解决了,实际上商品推荐的系统就能够做的出来,好,那么这是第一点,那么第二点,第二个例子,我们要做一个什么天气的预报,比如说我们想要预报一下我们下一周的这个天气的情况,那么我们会怎么去做天气预报呢?我们会把我们当前这个地区,比如说北京或者上海,那么过去十年或者过去20年天气的数据拿出来,那么通过气象上面的一个计算,然后预报一下下周的什么天气情况,那么这就是基于大数据的什么天气预报的什么这种系统,那么问题非常简单,但是呢,我们要把它给做出来,又会涉及到哪些具体的问题呢?首先第一个问题。
06:42
就是过去十年或者说过去20年,我们大量的什么天气数据如何这个存储,那么这是一个很大的什么数据量,那么我们需要有种方式把它给存取下来,好,那么假设下我们已经有了一种方式把过去十年或者过去20年天气的数据保存下来,那么第二个问题就是你如何去计算这么大的数据呢?那做出一个天气的预报,所以呢,在天气预报的系统当中的第二个问题就是大量的天气数据如何计算的问题,那么。
07:20
把这些问题都给解决了以后,实际上天气预报的系统就能够做出来,那么通过这两个例子,我们想要告诉大家一个什么问题呢?就是到底什么是这个大数据,那么它的什么本质是什么?本质是什么?那么相信大家都应该能够想到它的本质是什么,它的第一个本质就是什么数据的存储,那么它的第二个本质就是什么数据的这个计算,那么我们把这两个本质那么。掌握了以后,实际上大数据的核心的内容,这就算掌握了,那么我们要学习的大数据的计算框架,比如说哈up或者是SPA,它的核心就是要解决数据的存储和数据的这个计算,那么我们在这里先把这些基本的概念给大家怎么提这个提出来,那么数据的存储它采用的是一种什么分布式的什么存储,那么分布式的存储文件,分布式什么文件这个系统,那么它呢,就是一种分布式的什么存储机制啊,那么具体我们会在后续给大家详细的介绍它的原理和什么基本的结构,那么数据的计算呢,它采用的是什么方式呢?就是分布式什么计算,那么采用这两种方式呢,就可以解决大数据的本质问题,就是数据的存储和数据的这个计算,那么刚才我们提到我们要学习的哈,Up或者。
08:55
说要学习的Spark,它的本质就是要解决这样子的问题,那么了解了这些基本的内容以后,那么我们接着讨论一下Java和我们的大数据到底有什么样的这个关系呢?刚才我们提到大数据的核心的框架有两个框架,那么第一个框架是什么呢?第一个框架是我们的这个hardup。
09:19
那么哈up,那第二个呢,就是我们的这个什么,我们的这个Spark,我们在学习的过程当中,那么关于哈up和Spark知识都会给大家详细的什么这个介绍,那么哈up是基于什么语言开发的呢?是基于什么Java语言么开发,那么而我们的这个Spark呢,是基于什么语言开发,基于我们的什么这嘎拉语言的什么开发好那么但是注意。伽va语言,它又是什么?基于Java语言的Java语言,所以呢,我们只有掌握了这个Java语言以后,才能够进一步的去学习哈达,那么才能够进一步的去学习SKY拉语言,那么学会了斯SKY拉语言以后,那么才能够学习这个巴克,当然斯巴克呢也支持Java语言,但是更好的方式是什么?是需要使用这个skyva语言,所以介绍完这些内容以后,那么我们就需要来给大家具体的讨论下,我们如何去学习这个大数据呢?
10:22
我们需要什么样的基础,学习的路线又是什么样子呢?所以呢,我们把这些作文的内容给大家记录下来,首先第一个内容就是我们需要什么样的这个基础,那么当然第一个基础就是我们Java什么这个基础,注意这里我们只需要Java基础的内容就可以了,那么或者说换个角度来讲,就是Java什么一的内容。那么因为。我们在学习大数据的时候,用不到Java意义的内容,也就是说跟我们的他cut,跟我们的JSP,跟我们的ru net这些框架没有任何的关系,那么这是我们需要的第一个基础。
11:02
那么我们在学习Java基础的时候,那么具体需要掌握哪些这个基本的这个知识呢?那比如说最基本的类啊这什么。继承多肽,那么这些基础的什么知识,我们都需要什么非常的这个这个清楚,然后还有我们什么Java的什么IO输入和什么输出反射,那么还有什么泛型等等等等这些内容,那么实际上我们掌握了Java基础的这些知识以后,就能够学习这大数据,这是我们需要的第一个基础的知识,而我们需要的第二个基础的知识呢,就是我们什么Linux的这个基础。因为。我们需要把我们的hotup环境和我们start环境安装配置在我们的Linux环境上,那么所以呢,对Linux也需要有一定的了解,但是刚才我提到这里呢,我们只需要它的基础知识就可以了,准确来说就是Linux的什么基本的操作,那么我们会操作linuxon,那么比如说我们会什么。
12:04
管理什么会创创建文件,或者说我们的目录对会使用什么VI编辑器,那么等等这些基本的知识,那么了解到这些基本的知识以后,实际上我们就具备了大数据学习的这个什么基础,所以呢。了解到这个基础知识以后,那么还有一点就是我们要学习大数据的话,那么应该应该遵循一个什么样的学习路线呢?学习路线,那么实际上学习路线我刚才基本上都已经提出来了,那么第一步就是要掌握什么Java基础和我们的什么Linux的这个基这个基础,这是非常必须的一个什么一个准备的一个基础的一个一个内容。那么。学会了这个基础内容以后呢,第二步就进入到我们的什么howup,什么这个学习,在学习howup的时,我们重点需要学习什么内容呢?比如说我们需要学习它的什么体系结构啊体系这个结构,它的什么运行机制和原理那了,还有它的什么编程等等等等这些内容,那么这些都是我们在学习哈up的内容当中需要学习的内容,当然哈up里面的内容非常的什么,非常的多,那么我们这里呢,简单的给大家罗列下应该按照一种什么顺序来学习我们的哈,那么第一个阶段。
13:34
阶段我们需要学习的什么?它最核心的部分,那么就是它的什么HDFS,还有它的什么map reduce,还有一个什么h base,那么这是哈达普最核心的内容,那么HDFS是一个文件系统,那么刚才我们提到这种文件系统是一种什么系统呢?它就是一种分布式的文件系统,它来解决数据的什么存储,这是HDFS的什么。
14:02
这个作用,而这个map呢,它是一个程序,那它是一个Java程序,它用来进行什么数据的这个计算,也就是大数据本质的第二点的内容,而最后的这个h base呢?它是一个low c什么数据库?二就是一个low c什么数据库,如果我们把第一个阶段的内容都掌握了以后,实际上哈大最核心的内容这就算掌握了,那么第二个阶段我们要学习什么样的这个具体这个知识呢?第二个什么阶段,我们要接着学习哈,Up里面别的一些相关的内容,比如说我们数据什么分析的这个这个引擎,数据分析的引擎有什么呢。有我们的这个have和我们的这个这个这个pig啊,那么这些都是数据分析的引擎,我们会在上课的过程当中安装这些环境来进行一个什么实操的一个练习,那么还有什么内容呢?还有我们的这个数据采集啊,数据采集的这个引擎,那么数据采集的引擎主要有两个,一个呢是这个SCO,还有一个呢,是这个什么。
15:16
这个blue,那么这些具体的知识,我们都会在课程当中给大家做详细的这个介绍好了么?这是我们给大家介绍的什么,第二阶段的什么这些内容,那么除了这些内容以后呢,当然还有一些其他的一些相关的内容,我们都会给大家列出来,比如说我们的第三什么这个阶段现在来学习这什么,比如说我们看接着学习什么hue hue是一个什么,是一个管理工具。管理这个工具,它可以来管理我们的哈货,并且呢,它是基于网页的方式来管理,那么这是我们要学习的内容,还有一个呢,我们会学习什么?这个zoo keepper,那么to keepper,它的主要作用是在实现什么哈up的ha,那么这些基本的概念,那么大家可能现在不一定明白是什么意思,没有关系,我们首先在第一堂课里面先把这些名词给大家提出来,那么这样子我们后面再讲到它的时候呢,大家就不会感到过于的什么陌生,因为呢,我们在第一堂课里面已经提到了这些什么基本的这些概念,好,那么这是我们又一个什么。
16:26
又一个框架就是zookeeper,还有哪些内容呢?比如说我们的什么屋。那么屋内是一个什么,是一个工作流,这个什么引擎,那么比如说我们去请假,就是一个工作流,那么在哈大里面呢,我们也可以使用工作流的这种方式,这些内容实际上共同组成的哈的一个什么学习的一个框架。那么我们在我们的。这个视频当中,那么会逐一的给大家把里面重要的内容给大家做一个详细的介绍,那么学习完这个哈up以后呢,那么我们接着回来学习这个什么学习这个Spark啊,学习这个Spark,那么在Spark这部分我们会来怎么去学习呢?那么这是什Spark这个学这个。
17:13
学习,那么首先第一个我们就需要学习的什么scla是什么编程语言,那么因为SPA呢,是基于什么呢?基于SC拉语言开发的一个框架,这是第一部分的,就是也就是说是我们的第一个什么阶段要学习的这个内容,好接着进入第二个阶段,那么第二个什么阶段的学习,就是学习Spark的的这个什么核心的这个部分,那么它的核心部分叫什么叫Spark扣啊SPA扣,那么它最主要的目的是在解决什么,解决数据的这个计算问题,并且呢,它是基于什么,基于我们的内存的方式来什么。进行数据的这个计算,好,这是第二个阶段,然后接着是第三个什么这个阶段,那么第三个这个阶段我们来学习这什么内容呢?就学习Spark中的第二个组成的部分,就是Spark,什么sparkcyle,那么Spark cle,它类似于我们的什么Oracle数据库,或者说我们的什么这个MYSQL数据库中的什么这个CQ。
18:19
啊,那么我们可以像写一个select语句的这样的一种方式,通过Spark circlele的方式呢?那去调用,去执行,它可以来操作我们的大数据,好,那么这是我们的第三个阶段,然后第四个什么阶段,我们会来学习Spark里面又一个非常核心的内容,叫做Spark,什么stream,那么Spark streaming它主要的作用是什么进行啊。进行这个实时啊,这个什么这个计算,或者叫什么叫流式计算都可以啊,都可以,那么这个流式计算呢,比如我们举个例子吧,举就是我们的自来水厂。
19:00
是这个是呃水厂,那么自来水厂是一个非常典型的一个什么实时计算的一个这么一一个系统,好,那么我们在课程当中除了会学习这个哈大课知识,除了需要学习Spark知识,还有部分的知识我们需要去学习就是这个storm,那么这个storm呢,准确的说法它是什么?阿帕奇的一个什么一个这个storm,那么它的主要目的呢,类似于我们的什么,类似于我们的这个Spark streaming,他也在进行一个什么实时计算的框架。那么在介绍storm的时候,我们还会来给大家介绍一个什么,介绍一个low circle的数据库,就是一个什么radius,那么radius是基于什么内存的,什么no c口数据库,那么为什么要学习这个radius呢?因为storm它是一种实时计算的系统,那么计算完了以后,它需要把它的结果保存起来,那么一般来讲我们都会把它保存在我们的什么radius这个当中,所以呢,介绍到这里的时候。
20:08
我们实际上就给大家列了一个什么学习的一个路线,那么按照这个学习的路线,我们学习下来,那么就能掌握哈大的核心的内容,那么实际上这些具体的知识在我们讲义上面实际上都已经提到了,比如说我们刚才提到的什么是大数据,那么商品的推荐和天气的预报,它的本质是什么呢?存储和这个什么这个计算,那么Java和大数据是一个什么关系,我们刚才已经提到过了,它大呢,它是基于Java源开发的my produce呢,它也是个Java程序,那么我们可以看到这两张截图都是一个什么,都是Java程序开发的什么个程序?那么学习的这个路线,那么和基础,刚才我们已经做了详细的这个讨论,那么介绍到这里的这个时候,关于我们第一讲的课程的内容,那么大数据基础入门的内容就给大家介绍完了。
我来说两句