文章/答案/技术大牛

发布

首页视频083 - 回顾

083 - 回顾

2022-12-022022-12-02 16:02:22播放39

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据Spark实时项目Spark Streaming/视频/083 - 回顾.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:01
好，我们来上课啊。呃，那我们先回顾一下。昨天啊，给大家讲了这个ES的这个内容啊。昨天我们主要是介绍了一下，然后安装了一下。啊，这个DSL中呢，呃，说了一点点东西是吧，来再来整体看一下啊。呃，这个简介里面啊，主要是大家就要知道一下这个ES啊，它到底是什么样的一个框架哈，嗯，其实我们对它的一个定位呢，它是一个全文搜索引擎啊，就做这个全文搜索的。啊，它是什么，基于这个lun啊，来去做了一个全面收缩引擎。OK吧，然后现在我们对这个ES，呃，主流的一种使用方式呢，其实还是作为这个全文这个搜索引擎来去使用的。很多这个企业里面都在用啊，昨天这个也给大家这个举个例子啊，实际上像这个百度啊啊，或者这个什么京东啊啊等等一些吧，啊好多公司呢都在用啊，做这个全文的这个搜索啊。
01:03
OK。呃，那么它有哪些这个使用场景呢？就除了这个全文搜索之外。对吧，现在这个比较主流的还是这个全盘搜索啊呃，除了这个场景之外的话，其实还有别的啊，比如说呢，放到我们这个大数据的这个领域里面，它也是可以去处理一些海量的这个数据的。好，那你这个处理海量数据的话呢，呃，你就得知道啊，它是。通过什么样的一些这个技术来去做啊，呃，其实呢，它并不是说这个一个人在战斗啊，它是由这个。这个应该是什么，有三个好兄弟对吧，这个一起组合起来，然后呢，帮助我们去提供了一个海量数据的一个什么解决方案啊来这个昨天也聊过了啊，再来简单说一下。就我们现在有一个呃，技术站啊，这个技术站知道这什么1K啊，这个大家要听一下啊，以后别人在说的时候，你就知道说的是谁了啊1K啊。然后呢，呃，分别是我们的elastic search啊，还有一个是lo，还有一个是K的。
02:02
啊，那么他们三个能干什么事呢？这个loste呢，它能够帮助我们去做这个数据的一个采集啊，数据的一个收集啊，那他把这个数据采集回来以后呢，会把数据呢，放到我们的ES中。那就说白了啊，我这个ES呢，其实是可以帮助我们去存储数据的。OK吧？那你把这个数据存下来以后，嗯，你怎么去做这个数据的一个分析啊，做这个数据的计算呢？嗯，其实还是使用这个ES啊，因为它拥有这个相对。呃，比较强大的就是分析啊，统计能力。理解吧，分析统计能力啊，所以说我们可以什么拿这个ES呢去做啊好，那你说我这个算出来以后，我们想去展现一下这个结果啊，做一些这个可视化，诶那这个时候你可以什么直接使用这个K班的。它是可以帮助我们去做这个可视化的啊，就是你可以把它定位成是一个BI工具。理解吧，啊，所以说呢，我们通过这个ELLK啊，这样的一个什么技术站啊，其实也能够对这个企业中海量的数据呢，去做出这个处理。
03:05
啊，不过这个呃，现在来讲的话呢，其实呃，阿法奇那一套的话，用的还是相对比较多一点。理解吧，就以前的话呢，可能这个用K的比较多。好吧，呃，这个主要主要还是在这个Java中啊，用的比较多一点啊，主要还是Java中用的比较多一点。OK，嗯，那我们这个目前对这个ES的一个需求的话呢，其实主要就是让它作为一个。O lap这个数据库啊，然后呢，我们将来对这个数据呢，进行这个统计和这个分析啊，因为它本身就是拥有这个比较强大的这个统计分析能力的。好吧，啊，所以我们把这个呃作为这个op来去使用一下啊，面向这个分析的啊，就是我们把这个项目中，把我们这个实时处理中啊，你这个前面这一套流程，你处理好的数据，对吧，最后呢，这个写到这个ES中啊，然后我们基于这个ES呢，呃，去分析你的数据。啊，然后呢，当然我们要借助这个Kan了啊，借助这个Kan去做一些这个可视化啊，这是我们目前对这个ES的一个需求。
04:06
好吧，等我把这个讲完以后呢，我们就把这个效果给它这个实现出来啊，行，这是它的一些使用场景啊。呃，下面是这个比较啊，这比较的话你们自己看一看吧，啊，我就不再去说了啊呃，反正这个综合来看的话呢，这个ES啊，它这个各方面的这个表现的都还不错。啊，这个存储数据呢，呃，容量还是OK的啊。呃，查询的时效性呢，也是相对比较较高的，比较高的，然后查询灵活性呢也还好。啊，虽然说呢，呃没有这个so好啊，但是呢，它提供了这个DSL呢，呃也能写很多这个复杂的操作，比如说你想过滤啊，你想去做这个匹配，你想做排序，你想聚合。啊，你像这个统计啊，都可以啊，都能去做。啊，就是跟这个so比的话呢，可能稍微逊色一点啊，但是呃，够我们用啊，够我们用，而且的话呢，它在这个目前的版本中呢，已经开始逐渐的去支持这个Soo了啊，但是呢，现在的话，这个支持的还不是很全面啊，等这个未来的某几某几个版本吧，啊，可能就会什么把这个soon呢做一个全面支持啊，那到时候的话呢，它的这个查询灵活性呢，就会变得特别的好。
05:15
OK吧？行呃，写入速度的话也是比较快的啊，比较快的，因为它也是采用这个异步的写入啊，就它这个写入机制呢，其实呃，跟这个h base的那个写入机制机制有点像哈，这个到时候我们去讲的时候给他去对比一下你就知道了啊。好，那从这个一致性啊，或者什么这个事物角度来讲的话，呃，这个ES就比较弱了哦，因为我们的ES呢，根本就不考虑这这一个层面的这个事情啊，就我就不考虑你什么一致性啊，什么什么事物这些东西。对吧，没有事物啊，我是怎么做分析的。听懂了吧，啊，又不是做你这个业务处理的啊行。呃，这这个做了一个什么简单的对比啊，就是通过这个对比呢，大家可以什么呀？呃，对这个ES呢，有一个更加直观的一个认识啊。
06:03
好了。呃，然后下面这个特点的话呢，你就要去记一记了啊。对吧，这一定要记住了啊，首先第一个就是呃，天然的这个分布式数据库。啊，这是个啥意思呢？这个ES啊，它这个本身啊，就是分布式的。啊，就说白了啊，他将来帮我们这个存数据的时候呢，它是什么通过这个分布式的方式来进行这个存储的啊，比如说我们往E自动存数据的时候呢，它会。按照什么，按照一定的规则啊，把你的数据的这个分成什么多个煞的啊，就是我们这个所谓的这个分片啊，分成这个多个票以后呢，呃，当然了，我们还可以什么呀，设置这个副本数啊，就是你要存几个副本，这个都可以设置啊，所以这个整体的这个机制啊，其实跟我们那个呃，HD阿法的那个就是块啊这个概念是差不多的，好吧，下面给了个图啊。就是你的一份完整的数据啊，我现在的就目前这个图的话，就相当于什么给你分成了三个啥的啊，这个这是一个，这是一个，这是一个。
07:07
对吧，那么当然了，我们还可以这么给他配副本叭，如说这是他的副本，这也是副本，这也是副本啊，当然这个对应的是你这个每个SH的一个副本啊，这两个是一起的，对吧，这两个呃，这两个是一起的啊，然后这两个是一起的。能看到吧，啊，你可以什么配副本啊行，说它这个天然的一个什么分布式的数据库啊，就是按照这个分布式的方式呢，帮我们做这个存储啊。行，这个应该好理解啊。呃，然后下一个是这个倒排索引啊嗯，这个倒排索引的话，大家可能这个第一次接触啊，或者这个概念的话，这个以以前可能也没有听说过啊，呃，这个不过无所谓啊，你要知道他是在干嘛就行了啊。呃，首先啊，这个在ES中呢，它会对这个所有的这个数据呢，默认什么进行这个索引，就说白了，我会什么默认给你加索引啊，但是这句话说的也不太合理啊，并不是这个所有的数据吧啊这个倒排索引的话呢，它只针对于呃，我们的这个字符串类型的数据。
08:04
啊，倒盘索引是只针对于这个字符串类型的数据啊，它默认是会会给你什么进行这个索引的啊呃，这一点和这个MYSQ正好相反的啊，这个MYSQL里面是不管你什么数据啊，它默认是不给你不给你带索引的，除非说你单独指定。对吧，假如说哎，我把我的某个列呢，指定成是一个什么主键了，它默认可以给你什么带一个主键的索引，当然如果说我们这个非常普通的一个列，你想什么呀，给他建个索引的，那你需要什么手动的啊，给他什么去建这个索引。是吧，就是你要哪个，你需要建索引，那你要什么去指定一下。但是你放到这个ES中的话呢，它默认就会给你什么，把这个声音给它加上。啊，你只有这个不加索引的时候呢，才需要这个去说明一下啊，说这个东西我不想要啊，那你需要什么，在这个键索引的时候呢。需需要你在什么建那个建index的时候。对吧，就是我们昨天讲过的那个，呃，就表对不对啊，你在建这个index的时候呢，去指定一下我在哪些个列呢，我是不想要带那个索引的。
09:01
OK吧？行，呃，那么这个ES的话，它这个使用的是倒牌索引啊，然后我们和my sol呢，做了一个简单对比啊，这个其实这个对比的意义不大啊，因为大家对这个买S的这个索引呢，其实也不是很了解啊，呃，应该大家是没有讲过的啊，如果说这个呃，Java的同学的话，他们要要去学一门课，叫那个MYSL高级啊，然后这个买赛克高级里面，其实呃，百分之六七十的课程呢，都在研究这个索引。啊，但是像我们的话呢，对这方面的这个需求是不高的啊，所以大家这个应该是没有学过啊，想简单了解一下吧啊。呃，那如果你想知道这个倒排索引的话，你得先知道一下我们传统的关系型数据库，它的这个索引的一种查找方式啊，它是什么，基于我们的记录，然后呢，去找这个单词。啊，那这个记录的话呢，肯定就是你的索引了，对吧，然后呢，基于你的这个什么带索引的这个呃字段，然后呢，去找到什么具体的这个数据啊，你比如说像我们这个数据，那我什么可以通过你的什么ID1ID2ID3ID4，然后去找到什么你对应的这个数据。
10:07
对吧，他这种查找方式啊，那我们这个倒牌收银是什么样子的呢？你同样的数据啊，比如说类似于就这种数据吧，是吧，就这种数据啊，那我通过这个倒牌的方式，我是怎么找，我是怎么找的呢。我是先把你的这个所有的这个什么单词啊，然后呢，做一个什么拆分啊，就是这里面有一个什么分词啊，把词呢给它分开啊，那分开以后呢，我们就得到了这么几个词。OK，那这个时候我就要什么依次呢，去记录一下你的每一个词啊，在我的每一个文档中出现过，后面我会记录这个文档的ID，你比如说啊，这个红牌是不是在我的一个一号文档和这个二号文档都出现过呀，那我记录就是什么一号和二号。对吧，就是以此类推啊，这这种方式就把它记录下来了。哈，那么这种方式的话，就非常方便我们去做这个全文的检索，你比如说现在呢，我想去搜索一个。
11:00
红海行动。对吧，那如果你要这个搜索红外行动的话呢，最终你会把呃，这个123号这个文档给它匹配出来。因为啥呢？因为我会把你的红海行动呢，也做一个什么拆分，我拆分成什么红海和行动两个词，那我就什么拿上红海到这里面去找，拿上行动到这里面去找，那很明显你红海是能够找到一号和二号，行动能够找到一号和三号，那综合起来就是一号，二号，三号，这就是我最后要调出来的数据。明白吧，啊，调出来的数据啊，想所以这就是呃，这个大盘索引啊，它的一种这个使用方式啊。OK。嗯，行，然后这个细节的话，我们这个后面再来说啊，嗯，就大家先知道一下他怎么去做了就行了啊。好，然后下面就是刚刚说的那个索引的一个什么对比啊，这个这是我们的一个B加。啊，昨天也简单聊过啊，它是一种平衡术啊，就是一个二叉树的这个变种吧，平衡术啊呃，当然这个平衡树的话也分啊，分什么B加，还有什么B翠。
12:02
是吧，啊，这个my sol，我们使用的是这个B加啊B加tree OK，它这个怎么查找数据呢？啊，它其实跟那个二叉树的那个原理很很像啊，就是呃，只不过我们在这个每一个节点中的话呢，我们是维护了这个多个数据了。理解吧，我会多个数据啊，然后呢，我们会有这个范围查找啊，范围查找，比如说呢，我们想去找一个30吧，啊找30，那30怎么找呢？我一看哎，30应该是在15和56之间，好，那我就什么会往左边找，对吧，找到左边以后呢，诶，我发现了什么20和这个49 OK，在这个中间，那我就往下找，那我就会什么定位到我这个30。能理解吧，啊，他这么去找的啊，这么去找的OK，行，这个了解一下就行了啊呃，那我们这个。ES的这个倒排索引啊，它的结构是什么样子的呢？呃，这个地方我们说的是这个lon对吧，为什么说这个lon呢？呃，因为昨天我们也介绍过了啊，其实呃，ES啊，它底层的那个什么分词啊，对吧？还有什么这个索引啊，啊都是什么通过这个lo来去实现的。
13:05
啊，它是那个最核心的那个包啊，行呃，但这个你不用去纠结它啊，你就继承这个ES的大牌索引结构就完事了啊，不用去纠结这个事啊。好，那他怎么做的呢？它其实很复杂啊，同学们我们先来说啊，首先呢，他要去做这个，先把这个式子给它做出来。对吧，我们先去理解这一部分啊，这一部分呢，其实就是我们这个构建了这个。倒排索引啊，前面的这都是我们的这个词啊，就是你这个分好的这个词对吧，一个一个的词啊，目前我们写的都是这个英语啊，英语的话就是一个单词一个单词的去拆分啊好，那我这个拆分好了以后呢，我就可以去记录一下了啊你的这个单词呢？诶在哪些个文档中出现过，好你的这个单词呢，在哪些文档中出现过。对吧，就这么以此类推啊，我把这个所有的这个单词呢，都给它记录下来，然后呢，以及每个单词呢，在哪些文档都出现过，我也把它记录下来。好，那么这样的话呢，我们就把这个你的分词和这个词所对应的这个文档就把它记录好了。
14:07
明白吧，就把它记录好了啊好，那我记录好以后呢，将来比如说我们想去找了，比如说我想搜索一个什么ada，对吧？啊，我就搜索一个什么ada啊，这个时候呢，我就什么会找到你这个叫什么叫term dictionary啊，就你这个分词字典中的一个分词，那我找到它以后呢，诶，我对应的我就能够什么看到它在哪些个文档中出现过。OK，那我就可以拿上你的这个文档ID，然后呢，到后面去怎么调你的这个具体的数据，比如说一号，一号文档的这个数据调出来，对二号文档数据调出来，就以此类推，就把这个数据都给它调出来了。明白吧，他这么去找的啊，行，呃，这么来看啊，其实这个找起来呢，就已经很快了啊，特别是对于什么这个全文检索来讲，因为我要知道我的这个词呢，在哪些这个文档都出现过，对吧，那我就什么直接拿上你词去定位文档，而不是说把每个文档拿出来去定位你的词啊，不是的啊，行，就你这么找已经很快了啊，但是呢，呃，他还在担心说如果说我的这个字典啊，数据特别特别多了以后，那我从这个字典中找我最对应的那个什么分词也会比较慢。
15:11
他又什么对，这个叫term dictionary啊对，他呢，又做了一个什么索引，我们把它称之为什么term index。他这个索引的话就是什么去按照什么呀，你的一定的规则啊，然后呢，去帮助你快速的去定位你要找的那个词。对吧，你比如说你看这个A开头的，那我就什么从这开始找好S开头的，我就从这开始找，对吧，一开头我就什么从这开始找，等等一些啊，它会有一定的什么这个规则。理解了吧，会有一定的规则，然后然后帮助你去这个快速的去定位到你的这个分词啊好，那定位到这个分词以后呢，再去定位到你的这个文档ID啊，然后呢，再去调出来你这个最后的这个数据。对吧，所以他这个整个的做的还是比较复杂的啊好，那么大家看一下吧。呃，这个你现在所看到的这一部分，仅仅是ES帮你做的索引。
16:00
啊，仅仅是ES帮你做了索引，他就要去做这么多东西，就要存这么多东西。好，那我们真正的数据呢，呃，你就假设在后面吧，好吧，在后面挂的我的这个数据，OK，那就看一下啊，我们之前我们要去存数据的话，比如说我要存这部分数据，那我存到这个，比如存到这个HS中，对吧，那你存进去，你无非占的空间就这么大呗。对吧，如果说你要有副本的话，就什么乘呗，比如说你两个副本再乘以二，三个副本乘以三。是吧，但是你放到我ES中的话呢，你的数据诶你需要占这么多，当然如果你要有副本也得去乘。是吧，除了你的数据之外，我还要单独的给你去维护这个索引，这个索引呢，它其实也会什么耗费很多这个磁盘空间的，也需要什么占用你的这个存储资源。明白吧，所以说啊，从这个角度来讲，大家要怎么记住一个事儿，这个ES它的存储代价比较高，听懂了吧，存储代价比较高，那什么叫存储代价呢？就是你同样的数据你存到HTS诶，那我就用什么，只要占用什么固定的这个磁盘空间就够了，但是你存到这个ES中呢，那就不一定了，它为什么占用比你这个数据啊要大很多的磁盘空间。
17:11
就是我会额外的去什么消耗很多这个磁盘空间。当然啊，你现在看到这个磁盘的消耗，其实这些东西呢，都是要什么构建到你的内存中的。那你构建到内存中的话，那我对我对我什么内存的这个消耗也是比较大的。对吧。而且的话，你想想将来我要去帮你维护这些东西，你的数据进来以后呢，我要帮你去维护这个索引啊，那我还怎么需要怎么去做这个计算，那变相的对你的这个CPU啊，计算性能也会有一定的这个消耗。对吧，所以说整体来讲啊，这个ES它这个存储的这个资源，呃，存储的这个代价呢，会比较高一点好吧。嗯。来这是我们这个大牌索引啊，然后再往后是这个所谓的什么正牌索引啊，但其实这个事儿吧，昨天我们也强调过啊，这个一般我们不会说这个正牌索引。
18:02
啊，我们在这个ES中啊，我们直接说的就是什么，就是叫列式存储了。理解吧，哎，叫这个类似存储啊，这个是我们聊的比较多的啊。呃，啥拉，这个列式存储呢，那就是列存呗，把你的数据什么按照列的方式，就是给你什么按照什么列存的方式啊，给你什么存储起来。好吧，那么它是实现跟这个倒版索引啊不同的功能的，你的盗版索引的话呢，我们主要做的是这个全文检索。啊，我做这个全文检索特别特别的快。啊，但是如果说你想去做一些别的操作，比如说我想去做什么，做排序做聚合了。那这种操作你通过盗版收银做，你就非常非常难做。对吧，因为你的你的数据呢，不在一起放着，我也不知道你这个哪些是哪些。是不是它就非常难做啊，但是我们一般想要去做这个排序，想要去做聚合的话呢，我们都是什么基于你的数据的什么某一个列来去做的，对吧，数据的某一个列来去做，比如说你是一个呃，Age列对吧，或者你是一个什么什么真的列啊，或者你是什么什么salary列，就基于你的某一列，然后呢去做什么聚合排序统计。
19:08
对吧，那么这种性能是非常非常高的。啊，所以说呢，呃，他在这个ES中啊。它默认呢，会给我们的字段。存一份就是按照什么，按照这个劣势的方式呢，帮你去做一个这个存储。啊，按照列的方式帮你做存储啊行呃，那么这个地方可能大家会想啊，那你说你又有什么倒排索引啊，对吧，又有什么什么劣势存储对吧，那我将来到底怎么决定呢？还是说这个两个我都要啊。大家注意啊，这个其景也不用担心啊，呃，我们在这个ES中啊，刚刚我说过这个倒排索引的话呢，呃，其实只有只有什么只有那个什么字符串类型的数据啊，字符串类型的数据，它才有可能会给你存这个招牌，那么其他类型的数据的话呢，它统一都是按照这个劣势的方式去存的。啊，或者将来我们可以去指定啊，就是哪些数据呢，你是希望去做什么，做这个全文检索的，只要你做希望做全文检索的数据，那你就一定要什么呀，存成这个倒牌。
20:06
明白了吧，好，那如果说你的这个字段呢，既想做这个全文检索，然后呢，还想去做什么，做这个，就比如说这个，呃，分析统计，那你要什么，既要存一个倒牌，然后呢，还要再存一个什么劣势，就两个都存都也是可以的，或者说呢，我只存一个道牌，或者说只存一个什么劣势存储啊，这个都可以。理解了吧，啊，首先你不用担心啊，我们在这个将来建这个索引的时候，建这个index的时候呢，我们都是可以什么具体去指定的啊，我希望你怎么存，你就帮我怎么去存。好吧，这个知道就行了啊行，所以说呢，这就是我们这个ES啊，它的一些特点啊，你就记住了啊呃，这个T的这种分数式，再一个呢，就是这个大牌索引啊，再一个是这个劣势存储。OK吧，记住啊。行，最后一个lon和这个ES的关系啊，这个就不多说了啊，就是ES的底层啊，就是由这个lon啊来去做的，就是内核吧，最核心的一个包啊叫lon啊。
21:06
然后第二章和第三章啊，就是安装了啊，这个安装的话呢，嗯，不多说了啊，你就照着这个文档一步一步去把它装好就行了啊，这个不多说了啊。行，这个装完以后呢，我们就开始讲这个ES的这个DS了啊，首先解释一下这个什么叫DSL啊，呃，这个玩意就是什么，就叫特定领域叫什么专用语言。啊，说的通俗一点，就是我自己提供一种什么操作方式啊，我自己提供了一种语言，那么这种语言的话呢，我不是通用的，对吧，你在我的ES中能用，但是你发了这个别的这个技术中，我就不敢保证你是能用的啊，而且这个语法什么的我都不敢保证是一样的。对吧，到特定领域的专用语言。是吧，好，那么将来呢，我们很有可能在这个学一些这个别的技术的时候呢，诶，他也有什么自己的什么什么DSL。对吧，啊，那这个时候你也别高兴太早啊，既然我都叫这个DSL了，说明什么？说明都是特定领域的专用的。明白吧，你就专用的东西，你就不要去考虑这个什么通用性了哈，没有什么通用性的啊，不像我们这个烧烤对吧，它是这个通用的标准啊，像这个DSL没有啊，所以你这个学ES，你就老老实实的用ES这个DSL，你学别的就老老实实用人家的这个DSL就完事了。
22:16
OK吧？呃，那这是我们的这个BSL的一个简介啊，然后下面就是这个我们解释的几个名词哈。这几个词大家现在应该能够理解了吧？知道是什么意思啊。首先第一个这个cluster的比较简单哈，它就是一个就表达你的集群呗。对吧，就本来它是一个集群啊，然后node呢，就是一个节点。啊，然后这个Sha的啊，这个东西的话，我们就叫做分片。啊，就叫做分票啊，就叫分票，就是把你的数据呢，它为什么通过这个哈希算法，然后呢，分成什么多个票进行这个存放。那至于这个分多少个票啊，这个都是我们需要自己去指定的啊，这个现在我们讲的，呃，7.0.8这个版本啊，然后呢，它这个默认是给你分了一票的。
23:05
就你在什么建，将来建建这个索引的时候啊，建这个index的时候，它默认就给你什么分一片，但是这个很早之前的版本啊，都是这个分五片的。啊，那这个昨天也简单说过，为什么他会改呢？呃，其实我们认为这个票你分多了以后呢，那我这个可以什么做更好的什么附带均衡啊，可以什么更好的这个做，呃，就是这个啊，就做这个负载均衡对吧。呃，但是啊，它这个分票多了以后呢，也会带来一些什么不好的地方，就是你的分票越多，那我需要什么，占用的这个额外的资源就会越多，比如说什么内存呐。还有什么这个CPU啊啊，占用的就会越来越多啊，这个我们后面会去分析的哈，行，那么这样的话呢，就是你分票越多呢，好像也不是很好。对吧，那你这个越少呢，好像也不是很好，因为你太少了吧，你的这个负载又上不去。对吧，所以说这个地方我们就是必须要什么找一个什么折中点啊，那这个折中点我们怎么去找呢？找后面我们会给大家去说啊，你怎么去计算你的这个分片数啊，我们为什么通过你的数据量啊，通过你什么集群的这个什么资源的什么这个规模啊，教会你去算啊，怎么去合理的规划它啊。
24:17
想所以说这个现在呢，他已经意识到这个问题了啊，说这个分片啊，呃，不能这个瞎搞啊，说他这个默认的就给你一片，然后呢，让你去决定啊，你想这个分多少片，然后呢，你自己去指定一下，我就不再贸然的给你什么分五票了，或者什么分几片了。OK吧？好，下面这个index，这个index的话呢，翻译过来叫索引啊。其实呢，呃，它相当于是我们的一个表哈，就是你在这个ES中，你要存数据，你的数据呢，是存到一个index中的。对吧，类比到我们的数据库里面，就存到这个表中的。OK吧，啊，把这个概念理解对啊。然后type这个东西，这个这个东西我不不说了吧，反正我们也不会去用它了啊，就你就记住啊，以后我们看到这个下划线do的地方啊，它其实以前就是要放tap的，只不过现在的话已经把它废除掉了，不用了，但是呢，又没有废除的很干净啊，只能是通过一个固定的值呢去做一个。
25:13
代替啊，去做一个什么站位好吧。行，呃，Document啊，这叫做文档。它其实就是我们这个索引中的一一条什么一条数据。啊，所以这么一条数据啊，呃，所以说以后我们可能会说来，我们去插个文档啊，或者什么呀，去插入插入个文档。啊，你要知道我们在说什么意思啊，它就是什么插入上数据啊，或者什么去查询一条数据啊，是这个意思啊。然后最后这个field就是我们的字段属性啊。就你的一条文档中啊，那你肯定要什么包含很多字段吧，对吧，比如说哎字段名啊，字段名啊，字段名字段名对吧，那我这个file就什么就说白就是你的什么这个字段名字。对吧，相当于你的什么字段属性嘛，好吧，这个比较好理解啊。
26:00
行吧，呃，那这个名词解释完以后呢，我们给大家去讲一下这个服务状态的一个查询啊，这个状态查询的话，呃，你们自己下去以后，自己去敲上一遍啊，然后大概去看一看就完事了啊，这也不用去记它啊。明白吧，不要去记它啊，就有个印象就行了啊，就以后如果说我们需要去查的话呢，呃，那我们再去查。啊，一般情况下我们也不会去查，说什么你看看你这个节点的状态，看看什么索引的状态啊，不会我们就是一个使用的啊，我们使用这个ES的话，那我就什么直接对数据做操作就完事了，对吧，这个其实相当于什么，相当于对这个ES做管理的时候，你可能会用得到的啊，就你看一下这个ES当前的一个工作情况。对吧，啊，看看你这个各个节点的什么，呃，分辨情况啊，有没有什么这个出现这个倾斜等等一些。啊，你做管理的话，可能会用得到啊，但是如果说我们就是对这个ES做一个使用的话呢，对数据会操作啊，我觉得就差不多了，好吧，说这个东西呢，呃，不要求你们去背毁它啊，你就记住就就完事了啊，就知道有有有有这个东西就行了啊。
27:03
想呃，但最后讲的这几个参数，我觉得你还是需要这个记一下的啊，因为这个东西确实能够帮助我们，呃。更加什么这个合理的去查看你这个结果啊，比如说把这个表头给我显示一下。啊，那如果说你的每每一个列啊，这个我不知道是什么意思的情况下，你让他给你返回一下这个参数的说明，他会告诉你啊，这个列什么意思啊，会给你有一个解释。对吧。啊，然后这个H呢，是指定要显示列，就是我们如果说不想看那么多个列的情况下，那我就指定一下，你给我把某个列给我显示出来就行了。对吧，其他的我就不要了。啊，Format是格式啊，格式的话呢。呃，我们这个正常他给你返回的应该都是这个TXT啊，这是一个表格的一个格式，对吧？好，那我可以把它怎么处理成这个，比如说我们常用的这个摘啊，这也可以啊行。呃，这个是指定排序啊，就是你可以什么指定一下，你返回结果的时候呢，按照某个列呢，做一个排序啊，可以什么升序，可以降序啊，然后and的话就更简单了啊，就是拼接什么多个参数，比如说我又想用V，又想用help，又想用H，又想用这个，那你中间什么通过你的and符号去做一个拼接啊，And上你比如说H对吧，然后and上你的这个，比如说这个什么啊，Help对不对啊，去拼接一下就行了啊。
28:24
好，呃，这些是我们昨天啊，给大家去讲解的这个内容啊。又把它过了一下啊，行吧，那我们就说这么多了啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据Spark实时项目Spark Streaming

（84/155）

6分42秒

001 - 简介 - 项目介绍

500

9分18秒

002 - 简介 - 离线计算

340

25分51秒

003 - 简介 - 实时计算

450

11分47秒

004 - 简介 - 离线架构

400

18分16秒

005 - 简介 - 实时架构

430

6分3秒

006 - 简介 - 项目需求

390

5分9秒

007 - 日志数据采集分流 - 整体架构

460

10分4秒

008 - 日志数据采集分流 - 采集到数据

430

10分59秒

009 - 日志数据采集分流 - 生成数据脚本

430

13分21秒

010 - 日志数据采集分流 - Kafka脚本

430

9分21秒

011 - 日志数据采集分流 - 准备工程环境

430

32分39秒

012 - 日志数据采集分流 - Kafka工具类 - 1

380

16分44秒

013 - 日志数据采集分流 - Kafka工具类 - 2

410

10分7秒

014 - 日志数据采集分流 - 配置工具类

390

25分44秒

015 - 日志数据采集分流 - 消费到数据

320

17分25秒

016 - 日志数据采集分流 - 分流 - 1

350

21分50秒

017 - 日志数据采集分流 - 分流 - 2

410

12分47秒

018 - 日志数据采集分流 - 分流 - 3

370

6分2秒

019 - 提gitee

330

20分34秒

020 - 回顾

330

21分53秒

021 - 日志数据采集分流 - 分流 - 完成

310

14分56秒

022 - 日志数据采集分流 - 精确一次消费 - 分析问题

360

11分57秒

023 - 日志数据采集分流 - 精确一次消费 - 事务方案

440

19分49秒

024 - 日志数据采集分流 - 精确一次消费 - 后置提交加幂等方案

350

14分22秒

025 - 日志数据采集分流 - 精确一次消费 - Redis工具类

300

16分25秒

026 - 日志数据采集分流 - 精确一次消费 - Offset工具类 - 1

400

17分47秒

027 - 日志数据采集分流 - 精确一次消费 - Offset工具类 - 2

330

9分24秒

028 - 日志数据采集分流 - 精确一次消费 - Offset工具类 - 3

440

20分4秒

029 - 日志数据采集分流 - 精确一次消费 - 完成

250

6分45秒

030 - 日志数据采集分流 - 精确一次消费 - 总结

330

13分21秒

031 - 日志数据采集分流 - Kafka缓冲区问题 - 分析问题

340

24分24秒

032 - 日志数据采集分流 - Kafka缓冲区问题 - 解决问题

350

15分11秒

033 - 业务数据采集分流 - 架构分析

430

10分21秒

034 - 业务数据采集分流 - MaxWell工作原理

310

16分28秒

035 - 业务数据采集分流 - binlog格式

470

9分28秒

036 - 业务数据采集分流 - 安装Maxwell和MySQL

440

14分50秒

037 - 业务数据采集分流 - 采集完成

460

23分3秒

038 - 回顾

370

19分48秒

039 - 业务数据采集分流 - 分流 - 消费到数据

370

25分38秒

040 - 业务数据采集分流 - 分流 - 事实数据

440

21分55秒

041 - 业务数据采集分流 - 分流 - 维度数据 - 1

390

9分0秒

042 - 业务数据采集分流 - 分流 - 维度数据 - 2

320

4分15秒

043 - 业务数据采集分流 - 分析问题

350

16分47秒

044 - 业务数据采集分流 - 解决问题 - 历史维度引导

450

9分31秒

045 - 业务数据采集分流 - 解决问题 - Redis连接

300

13分18秒

046 - 业务数据采集分流 - 解决问题 - 动态表清单 - 1

350

21分33秒

047 - 业务数据采集分流 - 解决问题 - 动态表清单 - 2

370

28分46秒

048 - 业务数据采集分流 - 数据处理顺序性

410

10分42秒

049 - ODS到DWD - 总结

450

15分2秒

050 - DWD到DWD - 分析(1)

410

15分2秒

050 - DWD到DWD - 分析

290

7分3秒

051 - 日活宽表 - 任务分析

320

13分28秒

052 - 日活宽表 - 消费到数据

340

15分42秒

053 - 日活宽表 - 去重 - 分析

410

11分42秒

054 - 日活宽表 - 去重 - 自我审查

410

18分57秒

055 - 回顾

360

21分38秒

056 - 日活宽表 - 去重 - 第三方审查 - 1

410

33分53秒

057 - 日活宽表 - 去重 - 第三方审查 - 2

320

10分19秒

058 - 日活宽表 - 维度关联 - 分析

400

23分4秒

059 - 日活宽表 - 维度关联 - 对象属性拷贝

370

7分3秒

060 - 日活宽表 - 维度关联 - 关联用户维度信息

350

15分20秒

061 - 日活宽表 - 维度关联 - 关联地区维度信息

330

6分26秒

062 - 日活宽表 - 维度关联 - 空指针异常问题

320

9分23秒

063 - 订单宽表 - 分析

370

25分43秒

064 - 订单宽表 - 消费到数据

330

18分8秒

065 - 订单宽表 - 维度关联

410

20分56秒

066 - 订单宽表 - 双流join - 内连接

350

13分53秒

067 - 订单宽表 - 双流join - 数据延迟问题

380

23分37秒

068 - 订单宽表 - 双流join - 数据延迟解决方案

550

22分4秒

069 - 回顾

400

17分54秒

070 - 订单宽表 - 双流join - 缓存方案 - 1

430

20分42秒

071 - 订单宽表 - 双流join - 缓存方案 - 2

420

10分31秒

072 - 订单宽表 - 双流join - 缓存方案 - 3

360

12分25秒

073 - ES - 简介

410

8分32秒

074 - ES - 使用场景

420

20分31秒

075 - ES - 常用存储框架比较

300

25分46秒

076 - ES - 特点

300

10分49秒

077 - ES - 安装 - 修改操作系统参数

450

19分36秒

078 - ES - 安装 - 安装启动

340

17分10秒

079 - ES - 安装 - 集群启停脚本

390

24分40秒

080 - ES - 安装 - 安装Kibana

360

12分22秒

081 - ES - DSL - 名词解释

430

17分39秒

082 - ES - DSL - 服务状态查询

280

28分34秒

083 - 回顾

390

18分10秒

084 - ES - DSL - ES存储的数据结构

400

23分56秒

085 - ES - DSL - 数据操作 - 1

260

25分47秒

086 - ES - DSL - 数据操作 - 2

450

11分13秒

087 - ES - DSL - 数据操作 - 3

390

15分27秒

088 - ES - DSL - 数据操作 - 4

340

14分12秒

089 - ES - DSL - 数据操作 - 5

390

12分49秒

090 - ES - DSL - 数据操作 - 6

360

15分47秒

091 - ES - DSL - 数据操作 - 7

430

13分14秒

092 - ES - DSL - 数据操作 - 8

380

10分10秒

093 - ES - DSL - SQL的使用

320

19分13秒

094 - ES - DSL - 中文分词 - 1

340

8分7秒

095 - ES - DSL - 中文分词 - 2

380

11分14秒

096 - ES - DSL - 索引分割

410

25分4秒

097 - ES - DSL - 索引别名

460

16分43秒

098 - ES - DSL - 索引模板

380

100

29分21秒

099 - 回顾

390

101

11分49秒

100 - ES - 读写原理 - 写流程

310

102

4分53秒

101 - ES - 读写原理 - 读流程

390

103

8分57秒

102 - ES - 读写原理 - 搜索流程

450

104

11分54秒

103 - ES - 读写原理 - 并发写控制

420

105

19分14秒

104 - ES - Shard与段 - Shard数量

320

106

29分8秒

105 - ES - Shard与段 - 段合并

310

107

16分10秒

106 - ES - 客户端 - 准备环境

340

108

13分29秒

107 - ES - 客户端 - 单条写入

340

109

10分7秒

108 - ES - 客户端 - 批量写入

350

110

27分9秒

109 - ES - 客户端 - 修改

300

111

6分30秒

110 - ES - 客户端 - 基于id删除和查询

390

112

20分45秒

111 - ES - 客户端 - 条件查询

340

113

20分23秒

112 - ES - 客户端 - 聚合查询

350

114

14分54秒

113 - 日活宽表 - ES工具类

340

115

16分41秒

114 - 日活宽表 - 写入ES

370

116

3分23秒

115 - 日活宽表 - 作业

360

117

23分10秒

116 - 回顾

330

118

13分46秒

117 - 订单宽表 - 写入ES

370

119

8分41秒

118 - 日活宽表 - 状态问题

390

120

12分26秒

119 - 日活宽表 - 状态还原 - 1

300

121

22分37秒

120 - 日活宽表 - 状态还原 - 2

370

122

6分8秒

121 - DWD到DWS - 总结

400

123

6分35秒

122 - 应用层 - 简介

360

124

10分8秒

123 - 应用层 - Kibana - 配置渠道日活

460

125

12分16秒

124 - 应用层 - Kibana - 配置热力地图

470

126

8分6秒

125 - 应用层 - Kibana - 配置大盘

500

127

15分53秒

126 - 应用层 - SpringBoot - web服务介绍

370

128

22分10秒

127 - 应用层 - SpringBoot - 技术发展过程

370

129

6分13秒

128 - 应用层 - SpringBoot - 简介

390

130

9分58秒

129 - 应用层 - SpringBoot - 初始搭建

350

131

12分6秒

130 - 应用层 - SpringBoot - 开发分层

440

132

11分40秒

131 - 应用层 - SpringBoot - 请求打通

430

133

9分37秒

132 - 应用层 - SpringBoot - 请求参数 - 1

320

134

10分54秒

133 - 应用层 - SpringBoot - 请求参数 - 2

300

135

10分29秒

134 - 应用层 - SpringBoot - 请求参数 - 3

370

136

16分16秒

135 - 应用层 - SpringBoot - 请求参数 - 4

300

137

17分8秒

136 - 回顾

330

138

7分14秒

137 - 应用层 - SpringBoot - 请求方式

330

139

12分16秒

138 - 应用层 - SpringBoot - 状态码

380

140

30分32秒

139 - 应用层 - SpringBoot - 业务层

320

141

8分58秒

140 - 应用层 - SpringBoot - 数据层

330

142

10分14秒

141 - 应用层 - 日活实时监控接口 - 接口介绍

380

143

5分29秒

142 - 应用层 - 日活实时监控接口 - 搭建环境

410

144

14分46秒

143 - 应用层 - 日活实时监控接口 - 测试连通

370

145

15分29秒

144 - 应用层 - 日活实时监控接口 - 查询总数

400

146

13分44秒

145 - 应用层 - 日活实时监控接口 - 查询分时明细

320

147

5分22秒

146 - 应用层 - 日活实时监控接口 - 对接前端页面

400

148

15分16秒

147 - 应用层 - 灵活查询接口 - 测试连通

400

149

25分58秒

148 - 应用层 - 灵活查询接口 - 类别统计 - 1

380

150

11分44秒

149 - 应用层 - 灵活查询接口 - 类别统计 - 2

410

151

22分31秒

150 - 应用层 - 灵活查询接口 - 明细查询 - 1

370

152

8分10秒

151 - 应用层 - 灵活查询接口 - 明细查询 - 2

360

153

22分33秒

152 - 总结 - 1

350

154

13分37秒

153 - 总结 - 2

350

155

18分47秒

154 - 总结 - 3

400

083 - 回顾

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐