00:00
好,我们看一下这个have,它与数据库之间的一个比较,一直强调的它是不同的,它具体哪一块不同,或者说它有什么类似的地方啊,类似的地方有哪些,来看一下啊汉它是采用了。注意类吧,既然是类的话,它就跟不一样嘛,啊是不一样,它自己呢查询言上还啊,Havery have的一个RY。因此他说很容易理解为数据库啊,就是你后面用着用着越来越像是吧,特别像,但是你要总总体上把握它,除了这个产品语言类似以外,他其他的都不一样。其他都不一样,那具体有哪些不一样?从这方面我什么?查询语言数据的存储位置,更新索引执行呃,延迟扩展,数据规模等等这些方面啊,具体的一个一个给他家说,首先查询语言这块啊,其实它是类似的是吧?啊,因为它唯一的一个相似点是不是就是一个查询语言啊啊这个是类似的类似的,然后第二个是它的一个存储位置,看我们知道存储在哪啊HD吧买呢。
01:27
本地文件系统啊啊,本地文件系统呢,因为为什么一直说的是MY搜,因为大家学的这个传统的数据库,现在就选了一个MYS,其他的也没学是吧,所以我们现在对比的话,只能对比MYS好,这是它这个存储位置是不一样的,还有建立在哈之上的,所以它这个数据也是存储在还是当中的。然后买色呢,也就是我们传统数据库呢,它存在一个本地文件系统的本地文件系统,然后数据更新。
02:00
MYSO是不是有个什么updated的操作啊,对吧,D的可以增删改查都非常方便嘛,增删改查都非常方便,因为MYSO它就是为了这个增删改查来设计的。啊,所以他增加产子的效率都很高。当然这个效率高是有前提的吧,收据量小啊,收据量小的时候啊会很快,但是在我们汉当中啊,Have是做什么。分析的分析的,而且它是一个数据仓库,数据仓库也就是说你把数据存在这个地方,到时候你要用的时候,你往外读,然后你去相应的查询嘛,所以整个have呢,它是读多写少的。读多写少的。而且还有他说不建议对数据的一个改写,其实在HDM当中你能做随机修改吗?
03:02
可以有追加是吧,有ipad的操作可以追加,但是我们并没有讲修改的操作法,它是不能,它不支持这种改的,随机改的,随机改的,当然你要想真的想改,你把文件读出来,你改了之后再把它从从上面上去这种改法,那那肯定可以啊,对吧。那肯定可以的说,所有数据啊,都是在加载的时候确定好,就是你放进去的时候,这个数据已经确定了,他放在仓库里面,放在一个仓库里面,但是数据库当中,就像我们所说的增加改查都非常的方便,而且也很快,它是支持这种更新的update update操作。啊,而且是很快的很快的,接下来还有一个索引。你你们班搜狗高级上了吗?上过来是吧?上过来就好说了。所说我们所有高级里边是不是有一个给这个表建索引啊,加快它一个查询效率是吧,查询效率的,那么搜索是支持这个建索引,Have呢,它不支持的,而且。
04:11
你看没有,还有在加载数据的过程当中,不会对数据进行任何处理。它是不能建立索引的,建立索引的假如你写了一个条件,不什么ID,什么大于多少或者小于多少,它是要过滤整个数据的,扫描整个数据的,这也就给它产生了一个高延迟吧,因为它没有索引啊,他不能建立索引。频率比较高,但是MYSO不一样,MYSO不一样,它是可以建立索引的,它本身MY处理的数据量很小,然后处理处以数据量很小的话,它本身那个查询速度就很快,接下来它可以借索引它一个查询效率是不是更高了呀,所以买搜狗通常的是是接入到在线业务的是吧,你那些前端啊,或者说你点一个。
05:06
页面以后,他立马给你反馈出来东西,那个大部分的一个数据,如果说是结构化的数据化,大部分数据是不是从那个MYSL里面取的,对吧,从MYSL里面学,因为它是可以接在线业务的,但是你不能把哈尔接到在线业务。啊,还有是不能的,你光启动一下MR这个程序,整个的任务它就很慢了,它是不能接到在线业务的。而且他整个的不知之索引之后,他还要暴力扫描整个数据。整个数据,而且你既然把数据是放到have里边的,那数据量一定是很大的,对吧,数据量很大的,那这个时候你要扫描整个表的话。速度非常慢,效率很低,所以他还是归根结底做那个离线数据的,做离线数据处理了。然后是执行。那汉是MAP6吧,二来执行的,而传统的数据库呢,它有自己的引擎吧,还有很多引擎去执行的啊,不同的数据库可能还不一样,不能说如果是不一样的,但你要知道have,它是MR。
06:14
他是要保安妈任务的,然后执行的一个延迟。就是这个执行的一个延迟啊,Have。是高,这没问题,但是你在讲MYS延迟比较低的时候,一定要加上一个前提,就是MYS数据量,它表数据量很小的时候,哎,它这个效率很高,它数据量大上去了,它也不高,但是还呢,无论你处理的是小数据量还是大数据量,它延迟都高,对吧,它延迟都是啊,这是不一样的啊,都不一样的。啊,然后最后两点这个可扩展性跟数据规模,其实这一块的话。好,它两个是结合在一块的,因为数据规模,你想想看,还有跟买操这就不用说了,数据规模肯定处理的不是一个量级的是吧,不是一个量级的,那他能处理这么大一个数据,原因也是因为它这个扩展性。
07:13
那我们讲了have,它本身搭建的时候也没有什么集群啊,就一个客观搭建点,那所以说它的一个扩展性指的是谁的扩展性。是哈多的一个扩展性嘛,啊,它一定是指的是哈多的扩展性,它本身就是一个单节点的,就是一个客户端,它扩展什么呀,它不是扩展,所以说它的一个扩展性,或者它一个数据规模的话,那一定都说的是HDFS的扩展性和HDFS存储的一个数据规模的问题。啊,这是整体的一个比较,整体的比较。总结起来看,相同点就是他们有个查询语句特别类似了,特别类似,那不同点你要抓住最根本的就是处理的数据量。
08:02
啊,这是最根本的,因为我们讲大数据要用这些框架,就是因为传统的什么。处理工具没有办法及时的来处理我们这些数据量级的一个数据了啊,所以你归根结底你大数据框架跟其他的传统的一个框架做对比的时候,你都离不开数据量。这个层级的一个比较,你肯定离不开的。而且你在整个的过程当中,这些比较。很多的点里面都涉及到的是什么数据量的问题吧,你像那个特别是直接这个数据规模,还有这个可扩展器。然后什么延迟都跟数据量有关吧,它的根本还是在数据量的区别上,然后其他的这些东西。什么存储位置啊,什么更新啊,稍微记一下,因为课下稍微看一下应该都能记住的,因为这些东西都是很显而易见的东西,没有什么特别难,特别多的一些内容,对吧,这是它的一个比较比较。
我来说两句