00:00
好,下面呢,我们讲一下这个1.2大数据的特点啊,这里面呢是示威。好记一些啊,那看看具体是哪四位啊,我们来详细看一看。进来第一个呢,就是大量。数据量非常之大。看看,看看大到什么程度。截止目前,人类生产的所有印刷材料的数据量200。EPB等于多少?1024GB。啊,也就是说你电脑硬盘,你现在。跟我比起的也就有吗?有超过我1T机械1T固态的吗?没有吧,啊,目前也就2T是吧,也就2T的情况啊。啊,那你想想人家是200PB啊。而历史上全人类总共收获的话,数据量大约也就是五。
01:01
那1EB等于多少BB?哎,102是TB。那个数据量。多么的庞大。当前典型的个人计算机硬盘的容量是TB,目前我们的电脑就是1T2T。拍500G的吧,是吧。外的就可以是吧,从下楼扔下去还能摔得水。刚好。这情况啊。而一些大企业数据量已经接近于EB啊,就是刚才说的BAT。头条吧。差不多就这个数据量,呃,美团的这个离线数据量也能达到一比。离线数据啊,实时的达不到。啊,那这么个情况,那你会感觉到哈,在你的身边数据是无处不在啊,特别庞。那右侧这个呢,是什么呢?能看出来吗。机房是吧,机房机群啊。看到显示器了吗?
02:00
接万别太low了啊,这这个机群这个公司的服务器啊,它是没有这个显示器的啊,目前。咱这个咱公司也有呃。呃,在。那个楼啊,三楼啊,三楼机房里面有。到最后的时候,呃。呃,齐老师过来给你们讲课的时候啊。其实非常简单,跟你们连虚拟机是一模一样的。没有任何区别。也是给你个IP地址,给你个用户名。啊,直接往远程访问就完事了。其他的没什么任何配置,像那个在买服务器这这个过程中,你可能觉得这服务器老是会搭呀。我告诉你,呃,你买任何一家服务器,免费给你送到门,送到这个公司,并且全程服务给你安装好,你让他安装成什么样安什么样。甚至有一些默认的啊,直接呢,你从这个这台电脑上,这边电脑直接可以听通,它也就说所有的认识的虚拟机啊,还是环境。全部搞定。只要钱到位了,什么都OK。啊,这个一点都不用担心。
03:02
OK,那这个是这个大量啊大量。那下面再看一个第二个特点。高数的特点。速度非常之快。那看看吧,怎么个快法?预计2020年全球数据使用量将达到35.2。GGB等于102是。E是吧,E想一想。啊,这个是一个权威组织预测的啊,我会后面还会反复提到一个国际上的IDC权威组织预测2020年使用量达到这么多。这个很准的啊,算了。在如此海量数据面前,处理数据的效率就是企业的生命。这个很有意思,前你有这么多数据,你不处理它,放在那会产生钱吗?会产生价值吗?根本就不会产生啊,所以说呢,你只有把这些数据呃归你所用,那才能真正的去产生这个价值啊。
04:03
大家来看一看,这个产生速度快啊,天猫双十一一七年。三。就是一七年双11的时候三分零一秒。天猫交易额。速度之惊人啊,我估计今年肯定又超过他。这个呢,绝对就是大数据技术实现的,呃,据我了解他这个项目呢,是采用的是。一种这个流失框架啊,STEM有的同学应该能听过啊,它是在这个基础上又进行了进一步的一个封装修改。之后完成的。支持的滚动啊。预算留着了。这个都认识吧。马云是吧?啊,请叫我亚洲马首富。他们服一上市是不就立刻就收付了。他啥时候创业的?
05:00
机,我说他多大的时候抽烟?是得三三三十了。对吧,30多吧,四川的多。那你们现在多大年龄?20多,二十二二十三是吧。大一点的25 26。也就30岁以内呗,是吧。都比我大,我才是。这你看到那个时候你创个业是吧,啊,弄个丫头小小首付,我觉得应该没啥问题吧,是吧。这是都是小事啊,至少你得弄一个你们村里的首付吧。这个得能拿到吧。所以说你们现在呢,是比较年轻啊,年轻就有这个有资本是吧。行,这是高数。那下面来再往下看。第三个特点是多样性啊。的数据多种多样。来看一看,看一看概念啊。
06:01
这种类型的多样性也让数据被分为结构化数据和分析结构化数据。你说他把数据类型分成两种。结构化和非结构化。相对于以往的便于存储的。以这种数据库文本。前学的这个MYSQ数据库里的数据,还有日志里面那些数据的,那这些呢,都叫结构化数据。那分析规划程序什么呢?是这种网络日志,音频、视频、图片、地理信息杂乱无章的啊。这个都属于这种非酒文化。我们来详细看一下啊。加那个订单。这种信息啊,那它都是结构化数据。标准的字段。啊,那我下下那个。藏硅谷这种是吧啊。那他都属于这种。非酒化。形式多种量网络日志。
07:01
OK,这是多样性。那看一下最后一个啊,低价的密度。最后一个特点了。价值密度的高低与数据的这个总量大小成反比。这块能理解吗?数据量越大,对你有用的信息。反而越少啊。所以可能要付出很多时间啊,去从这个大量的数据当中去减少出有用的。比如一天的监控视频当中,你只关心宋宋老师啊,晚上。床上健身的那一种。啊,如何快速最有价值的数据提存,成为目前大数据背景下来解决问题。你只关心是吧啊。他健身的那一分钟。这是健身是不是像那个警察抓小偷是不是?他只关心视频上他偷东西那一刻?是一样的来看吧,呃,他是不行啊。
08:03
速度很短。三秒钟是吧,啊,三秒钟撑死。微信的账单看一下。是吧,啊对。来,开始啊。二。三。行了啊,真不行啊,也就一下的事儿啊,所以。这是他的爱好啊,没事爱健身。好,这个呢,就是这个大数据的特点示威啊,简单总结一下,第一个特点呢,是数据量非常庞大啊。第二个特点呢,是数据量产生的速度非常之快啊。第三个特点呢,是数据呢多种多样,第四个特点呢,是。低价的密度啊。压密度的时候可以减少它是吧。简称四维。英文单词是吧。
我来说两句