温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
数据平台的建设中,最常见的需求就是数据采集、数据存储、分析、查询以及展示,而大数据开源社区正好有相对应的开源项目。我们接下来所学习的elastic search就是用于存储、搜索数据的项目,而bit lockte就是用于采集和传输数据的项目,K班呢是用于展示数据的项目。这些项目组合在一块所形成的技术站,我们简称为l k stack。在整个技术站当中,我们的elas设是它其中的核心,我们简称为ES,它是一个开源的、高扩展的、分布式的全文搜索引擎,我们这里提到了一个叫全文搜索。那所谓的全文搜索,我们可以简单的理解为叫全站搜索,比如在博客网站当中,用户可以在网站里面去写一些文章,那么其他的用户呢,可以根据热门词汇、内容、关键字等等进行搜索,查询整个网站当中所有匹配的文章,并以列表的形式展现结果。那么传统数据库进行这样的全文检索时,效率其实是非常低的,即使进行一些S的优化,索引的优化效果也不会很明显。所以在生产环境中,这种常规的搜索方式效果是比较差的,那么这就需要我们采用专门用于全文检索的搜索引擎。
01:12
提到搜索引擎,就不得不提到一个由Java语言开发的免费开源工具,我们叫做Lucy Lucy呢是阿帕奇软件基金会的一个项目,它提供了进行全文检索的程序接口,但是它本身并不能够独立使用,需要在它的基础上搭建完善的服务器框架才能应用。那么我们的ES和solar,其实这两个搜索引擎软件就是我们的Lucy开发的,他们是基于Lucy进行开发,所以从内核的角度他们区别不大。那么其他的方面的区别呢?我们在下面给大家准备了一张图片,这张图片从不同的角度来对比了这两个软件,那其实对于我们来讲,咱们展示体会也不深,所以说如何选择对于我们来讲还是非常困难的,但你要说非得让我们从两者之间选择一个来使用我们的搜索引擎,那我们选择什么呢?哎,我们需要从以下几点来进行考虑,那么首先我们考虑的比较多的是我们搜索之外要进行的统计分析,那这个其实ES表现的会更好一些。
02:11
还有一个我们既然呢我们要对我们海量数据进行查询,那么我们就需要我们的搜索服务器也要是集群,而且应该是可以扩展的,所以对于我们搜索引擎进行可扩展和我们性能的这种操作是很重要的,所以这个其实ES表现的也是非常不错的。那么还有一个就是我们的分析指标。我们希望呢,对于我们的数据呢,进行大量的分析,统计出不同的指标,那么我们就需要我们的搜索引擎,它具有一些很重要的关键性指标,那我们统计完之后呢,便于我们的分析,所以说从这几个点来讲,其实我们ES还是一个首选。那么我们的很多公司也在大量的使用ES服务器,那么大家看一下,那么这里呢,GI up,维基百科,Short cloud,百度,包括我们的阿里呀,新浪。很多的一些公司都在采用我们的ES来实现我们的数据搜索服务,那么我们后面就会详细的来讲一下这个软件该如何去使用,好吧,同学们。
我来说两句