00:00
好,接下来呢,我们来看一下大数据的特点,那大数据呢,一共有四大特点,嗯,它是由四个英文单词啊,都是以这个啊V开头的,所以说我们通常称为4V,那首先我们来看一下第一微到底是什么V,好吧,嗯,那第一个呢就是大量。你说大数据的特点呢,它的数据量一定是非常非常庞大的,那它大到什么程度呢?哎,首先我们来看一组数据啊,截止目前人类生产所有的印刷材料的数据量是200PB。PB什么概念?1PB是不是等于1024T呀?哎,就这么大啊,而人类历史上总共说过的话,大约也就5亿币。这是从这个数据量上来说,那1EB呢,就等于1024PB。这么多数据,好,那咱们典型的计算机。存储的容量是TB级,刚才已经说了,通常情况下呢,就是1T到2T,嗯,这已经非常不错了哈,而一些大企业的数据呢,已经接近于EB,嗯,像咱们这个在中国的话,就是BAT加这个字节,还有呢,美团它内部的数据量呢,大概在一笔左右啊,因为咱们呢,有很多老学员啊,在这些公司当中从事这个相关大数据开发工作啊。
01:19
OK,那这是这么大的数据量,那这么大的数据量呢,你就需要用海量的数据集群进行一个存储,哎,这就是机房,看到吗?啊,机房啊,这个机房呢,这是机架是吧?机架里面放着一台一台的服务器,哎,成千上万台的服务器,哎,同时来工作,来帮我们存储海量的数据。那好,那第一个特点呢,就是数据量大,哎,那数据量大呢,就需要我们用海量的数据来进行存储,这不就是我们刚才讲的大数据帮我们解决的其中的存储问题吗?那我们再往下来。看一下第二个特点,第二个特点呢,就叫高数。它产生的速度啊,非常非常快,来举个例子哈,嗯,根据IDC啊,这个宇宙的一个报告啊,预计呢,2025年全球数据量使用将达到163GB。
02:15
速度非常快啊,快速的就产生这么多数据,那这个IDC呢,是一个非常权威的一个预测组织。啊,非常有名,后面呢,我们再讲大数据课程的时候还会提到它,啊先有个印象好吧,啊,那产生这么多数据,那你看在海量的数据面前,处理数据的效率就是企业的生命,比如你数据往那一堆。根本就不用它,或者说你没有办法去利用这里面的数据,那你觉得这个数据有价值吗?根本就没有价值,你只有把这里面的数据的有效信息提取出来,这才是真正的有用的。对吧,哎,能看,呃,像在中国的话啊,最典型的一个活动呢,就是双11。那像在2017年的时候,天猫双11它的交易额呢,是100亿,哎,在三分零一秒的时候。
03:04
那到了2020年的时候,哎,96秒就已经能够达到100亿的交易额,一个什么事呢?哎,它在非常短的时间内就能够快速的计算出来相应的交易额,那这里面其实也是大数据解决的第二件事儿,就是海量数据的计算问题。他能在这么短的时间内就能快速的统计出来他的100亿交易额。对不对,哎,你数据量产的很快,那我就得快速的进行一个计算,实时进行分析,那我们在后面讲对应的Spark streaming,以及还有这个link啊,流式计算就来专门解决对应的这个双11的问题。哎,后面我们课程会有啊好,那接下来再往下看,看一下它第三个特点。那在讲第三个特点之前,大家回忆一下大数据还剩下解决的另一件事,什么?就是海量数据的采集问题,对不对?嗯,好,那来看啊,首先。
04:00
这种类型多样啊,这个数据的类型啊,啊多种多样分为什么呢?叫结构化数据和非结构化数据。一天这两个名词晕了,什么叫结构化数据?什么叫非语化数据?哎,那大家回忆一下,咱们前面讲的课程当中是不是有my circle?那my circleq里面存储的数据是不是有行有列这种表格式的存储,那它是什么数据?它就是结构化的数据啊,结构化的数据OK,那好,那什么叫非结构化数据呢?啊,这是结构化数据啊,非结构化数据啊,你来到咱们商务网站对吧?哎,搜索大数据,诶看一下这个网大数据课程的一个介绍网页,那它属于什么呢?属于非结构化数据。没有明显的规律,你看这里面有图片对吧?啊,有文字啊,还有这个相关的一些啊语音介绍。对吧,那这种呢,就是非结构化数据,那无论你是结构化数据还是非结化数据,我大数据框架是不都得能够进行对你进行采集。我得把你采集过来之后,存储到大数据的这个呃集群上,然后进行后续的计算。
05:06
对吧,哎,所以说这是哎多样性的一个问题。那接下来我们再往下看最后一个。最后一个非常有意思啊。叫低价值密度,密度的高低啊,以数据总量的这个大小呢,成反比,那这句话怎么理解呢?说这个我的数据量这个很很大,这不是件好事吗?那么大家问题哈,你看啊,咱们呢,会监控这个宋老师一天的一个工作生活,哎,但是呢,我们只关心呃,宋老师在床上健身的那一分钟的相关的一些信息。对吧,就相当于从海量数据当中抓取某一些我关心的数据,那这呢也叫数据的一个提纯。对吧,按水的提纯。那你的数据量越大不越多,不一定最好,那对我越有用的信息,那才是有价值的信息啊,你比如说你看这一分钟啊,这里面是可以点啊一点。
06:02
嗯。啊,你看宋老师啊,这个呃,这个两秒钟对吧?啊,也就两秒钟的这个实力啊,你让大家看这个太长时间啊,也这个受不了啊,啊受不了啊这个宋老师呢,还得补补身体,行,那这就是呢,呃,低价值密度的一个啊介绍行,那我们稍微总结一下大数据的特点呢,一共有四维,第一个呢,就是大量,那大量呢,其实我们后面用大数据框架呢,就得用这个海量数据的存储来进行解决,对吧。那下一个呢,是它的高数,他高数的特性,我们未来会用这个大数据的快速的计算来解决对应的问题,那这个大数据的这个多样性的问题,它数据多种多样,那这怎么办?哎,你就得用这个海量数据的采集,不管你是什么类型的数据,我都能够对它进行一个采集。那对应的这个低价值密度,那这个又怎么办呢?那这个是这样的,我们把这个数据,诶采集到这个我们大数据存储框架之后,我们后续对它需要进行一个数据清洗,把一些脏数据过滤掉,提取出来我们有效的信息,那这是一个叫ETL工程师,哎,专门做的一些事情,OK吧,哎,所以说这是大数据的四大特点。
我来说两句