00:00
好,接下来呢,我们正式开始上课,从第一章开始啊,大数据的概论,大家概论里面呢,第一个呢,就是这个大数据的概念。我们来看一看。怎么定义的?这个PPT已经全新升级了啊,只要看刚才那地方,只要一双击就可以进来啊,啊一定要双击别这个别这种形式去看,这么看你看不出来啥。都是双击啊,都有动画啊。进来那大数据这个概念看一下。这个概念呢,呃,是我从百度百科上找到的啊,啊比较官方啊,稍微权威一些,但是呢,他这个描述呢。呃,乍一看会会难懂一些,嗯。带大家分析一下。看一看。什么是大数据?Big。它是指呢,无法在一定时间范围内。无法在时间范围内干什么呢?用常规工具进行捕捉。
01:01
管理和处理数据的集合。那这里面提到了一个是常规软件和工具,那这个常规软件工具指什么呢?就是Java意义啊,开发之前用到的一些技术。比如说Java里面用到了像这个。呃,买购。像什么SM啊,这种开发框架啊等等,那问大家一个最简单问题,买里面能存多少数据?500~1000万啊。那我跟你说,大数据里面平平常常的都是上亿条。该怎么办?对吧,那你这个是按条算,那他能存多少G的数据呢。或者他能不能存更大量的数据呢?他肯定是解决不了这个问题的啊。直接承包,即使能存进去,它的节省速率也很低啊。而且你现在这个买,最后他能打几个集群呢。
02:00
也就是说,它有几台服务器能撑起这个满头集群呢?30台啊,甚至说了不起100台,对不对?那大数据能拿多少台呢?现在呃,据我了解的像美团啊,像什么这个滴滴啊。包括这个百度他们的服务器。5000台起。像这个毕业机这种公司,那他们的这个服务器节点啊,基本上都在这个。应该在上万台左右。那这么大量的这个服务器如何来工作啊?保证这个具体运行,那买效果肯定是远远达不到的。啊,那再往下看,这是无法在一定时间范围内用这种常规软件,比如说刚才我们指的加这些工具进行捕捉、管理和处理数据集。是需要新的处理模式才能具有更强的这个决策力。洞察、发现率和流程优化的能力。海量、高增长率和多样化的。
03:02
也就是说呢,这个数据量呢,现在很大啊。随着我们时代的发展,它的增长速度呢,也很快,类似于双11是吧,啊双。一的大速度,瞬间就100亿。100亿交易额。这样呢是多样化。越来越多了,像这个,呃。图像啊,音视频呐啊,语音呐等等这些呢,都八八分啊,各式各样的。那我们来看一看。这些单位还是。能守到哪?B没问题,Be没问题,KD没问题。照没问题,记没问题。T也没问题对吧,再往上可能有些同学就不太清楚了啊TB往上就是TB对吧啊EB,然后JBB。比较主流的目前是TBPB和EB。在大数据一块。那这样呢是吧,还有一个。
04:01
这得记住是吧,NB。比较牛是吧,像这个呢啊,我估计。到到我室那天可能不像。三道这么多数据啊,这个数据量是超级超级大啊,为什么呢?这么说他们之间的进制都是多少。102室啊,102室。目前像BAT这种公司,它的数据量能达到一笔就不错。还有一个公司差不多,哪个公司呢。头条。头条还是猛的啊,呃,在大数据领域当中,现在属于这个一流团队的应该属于这么几个啊。我个人认为啊,不一定权威,呃,像这个阿里肯定没啥说的。啊,然后这个腾讯。百度我都觉得差一点啊,因为咱这个确实有在百度上班的这个学。上啊。百度就会一招干什么呢?只要服务器性能ad啊,就是这样加加加一加啊。
05:00
因为说这个能加服务器解决问题,绝对不劳烦程序员。对啊百度啊,现在呢,他们这个像这个服务器的使用率都已经达到90%,80%就已经到了这个要付费的这个电天天报警,天天报警。今天这个机器又出事儿。100%,那阿里腾讯啊,相对来说比较好一些,还有呢,就是这个今日头条。呃,再有呢,能跟他们稍微比例一点的就是什么呢,美团。还凑合,他还凑合,稍弱于他们,但是还好。呃,头条是真的是异军突起。他这个成长超级快。呃,我看了一下之前的这个招聘信息啊,我记得是在一七年年初的时候。这个头条是疯狂的在揽揽人才,那时候开出的价格真的是很高很高。啊,月薪都是五六万起。
06:00
行啊,那这是这一块啊,这个数据量呢,都是这个,目前比较主流的是TBTB和B。啊,那一对夫妻啊,闪亮登场是吧?是他说的,说他们两个非常有夫妻相啊。一定要把把它放在这儿。这哥们认识吗?不认识啊。康师傅都不认识吗?你们在官网上第一天看的这个学的Java SE的视频。号称威武第一男神啊。对吧,我来之前还可以,我来了之后就是简直臭不要脸对吧,啊我这么我是威武第一帅是吧。我都没敢说我第一男神。是吧,但是是这样,这个这老师呢,他有几大爱好,几大爱好。后面再说哈啊。他呢,没事呢,总喜欢存点这个。
07:00
我导播老师的视频是吧啊。像你们也是哈,正常应该就是存在这二位老师的视频。啊,没事,看看他,再看看他啊。这个学习效率肯定高啊。他存了100G。啊,这个宋宋老师,除了一百七这个。魔老师视频。那他的电脑才多大呀?他的电脑才1T。1G的存储空间,那么100G的内容。他怎么能存得下呢?都是专业的专业的是吧啊,专业人士啊还好啊,他的这个学耻遍天下是吧啊。他现在目前的粉丝应该在百万啊。可以去4S店去看一下。百万级粉丝。啊,所以说为什么这么屌啊。长成这样是吧,像男神。那他有这么多粉丝,哎,他就有优势了,怎么样,我说呢,他让每一个粉丝只存其中的一点。
08:03
比如说他拿找1000个这个粉丝啊。每人呢?是不是只存一点点就够了?那他就存的下了,那就说一个人存不下的时候,我采用多个人来存。那同样的道理,那如果说一台服务器存不下,存不下的100G。是不是就可以弄个集群呢?哎,多台服务器来分别去存储这100G,一人存一点,这事就解决了。那么。宋老师呢?哎,他还有个爱好干什么呢,他就专门喜欢哎这个老师。五月份的视频。啊,就五月份了啊。那怎么办呢?那他这个视频它可是存在是不是N台服务器上。三台服务器上,那从100G当中去检索到五月份的那。
09:01
那是不是它又涉及到一个计算的问题?啊,如何来快速的一个查找的问题。那这么两个问题。那总结一下,大数据主要解决的就两个事儿,一个是海量数据的存储,一个是海量数据的分析计算。也是纯和涮的问题。这个大数据都能解决,就解决这个事儿,以后在面试的过程中啊,面试官会问,哎,你谈一谈你对大数据的理解。你唯一要谈的就是这两个方向,一个是它能存储海量的数据,那海量的数据呢,基本上就只这种数据。TBTBB。那另一个呢,就是在这张这么大量的数据当中,我进行一个分析。计算。这么个事儿啊,所以说这个要记住啊。一个是解决存储,一个是解决计算。
我来说两句