专栏首页Java工程师日常干货快速掌握分布式搜索引擎ElasticSearch(一)

快速掌握分布式搜索引擎ElasticSearch(一)

前言

由于最近在项目中接触使用到了ElasticSearch,从本篇博客开始将给大家分享这款风靡全球的产品。将涉及到ElasticSearch的安装、基础概念、基本用法、高级查询、中文分词器、与SpringBoot集成进行接口开发等相关知识。

ElasticSearch简述

如果大家接触过大数据的话,相信大家或多或少的听说过ELK。ELK是目前非常主流的用于网站监控,流量监控,日志监控,集中日志管理的一套解决方案。而ElasticSearch如同ELK的心脏一般,起到一个非常核心的作用。简单来说,Logstash通过把日志收集到ElasticSearch中,进行储存,kibana负责可视化的展现结果。

ELK

说白了,ElasticSearch就是一款大数据搜索引擎,那么在市面上还有哪些类似的产品呢?在Java开源界的话,主要就是Lucene、Solr和ElasticSearch了。

Lucene,Java领域的搜索引擎鼻祖,是一个比较底层的东西,需要深厚的搜索理论基础才可以掌握,比较复杂(它本身不是一个完整的解决方案,需要额外的开发工作)。因此,为了方便使用,屏蔽复杂性,Solr和ElasticSearch在lucene的基础上进行了二次开发。 Solr相比ElasticSearch而言拥有更加成熟的社区,比较稳定,但是随着数据量越来越大,对实时性要求越来越高,Solr的搜索效率在下降,而ElasticSearch却没有明显的变化。因此ElasticSearch非常适合实时搜索的应用。(比如大名鼎鼎的Github的站内实时搜索就在应用ES) 另外,由于ElasticSearch提供了简单易用的Restful API,轻松的横向扩展机制(说白了,可以通过加机器来扩展容量),能支持PB级别的结构化或非结构化数据处理,具有强大的分布式储存能力。

ElasticSearch的安装

安装比较简单,下载地址是: https://www.elastic.co/cn/downloads/elasticsearch 下载后直接解压,运行即可。

运行es

默认启动端口9200

查看es启动状态

注意上面的方式是单实例的安装,那么分布式安装呢? 其实,对于分布式安装,无非注意下面几个配置要点: 指明谁是master,谁是slave,集群的名字,节点启动的端口(特别是在同一台机器上模拟分布式)。

几个重要的基础概念

索引,含有相同属性的文档集合。 类型,索引可以定义一个或者多个类型,文档必须属于一个类型。 文档,文档是可以被索引的基本数据单位。

看起来,比较绕,我们用类比的思路来理解:

类比理解

索引相当于database,类型相当于table,文档相当于一条记录,文档Document是es里面最小的储存单位。需要注意的是索引在es中的名称必须是英文字母小写且不包含中划线。和索引相关的有2个高级概念,一个是分片,一个是备份。

分片:每个索引都有多个分片,每个分片是一个lucene索引。

备份:拷贝一个分片就完成了分片的备份。

假设索引的数据很大,就会造成硬盘的压力很大,同时搜索速度也会出现瓶颈。那么可以将索引分成多个分片,从而分摊压力。分片的同时,还可以允许用户进行水平扩展和拆分,进行分布式的储存,从而提高搜索的效率。 当一个主分片出现问题时,备份的分片可以代替工作,从而提高了es的可用性。 es在默认创建索引时,会创建5个分片,一个备份。

假设我们的es是一个master,2个slave,创建索引时,走的默认配置(5个分片,1个备份),那么图示如下:

分片和备份

图中标绿颜色的是主分片,其他是备份的分片。

创建ES索引、类型

本文前面提到es提供了简单易用的Restful API来操作索引/类型/文档,下面介绍下基本格式:

API基本格式  http://ip:port/索引/类型/文档id http常用方法 get/put/post/delete

下面,我们演示一下利用postman来创建一个索引和类型:

创建索引和类型

查询索引、类型信息

好了,本篇博客就介绍到这里,下一篇博客再来给大家介绍文档的增删改查操作等。

see u next time~

张丰哲

2018.11.10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 从程序员的角度深入理解MySQL前言数据库基本原理探索MySQL索引背后的原理SQL优化神器:explain

    作为一名工作了4年的程序猿,今天我将站在程序员的角度以MySQL为例探索数据库的奥秘!

    用户2890438
  • 玩转Redis集群(下)Redis集群操作实践Redis实现Session共享Java操作Redis与Spring整合

    从上面的操作,你可以看到,当存储某一个数据的时候,会分配一个slot,而这个slot从属于某一个Master,也就是说你需要明白,数据是分布的存储在Redis集...

    用户2890438
  • 从Java程序员的角度理解加密的那些事

    在我们日常的程序开发中,或多或少会遇到一些加密/解密的场景,比如在一些接口调用的过程中,我们(Client)不仅仅需要传递给接口服务(Server)必要的业务参...

    用户2890438
  • ElasticSerach基本概念

    我是攻城师
  • Elasticsearch基本概念及特点

    Lucene:简单来说,就是一个jar包,里面包含了封装好的各种建立倒排索引,以及进行搜索的代码,包含各种算法,我们用java开发的时候,引入lucene.ja...

    create17
  • 触类旁通Elasticsearch:优化

    ES提供的批量(bulk)API,可以用来一次索引多篇文档,从而大幅加快索引速度。如图1所示,可以使用http完成这个操作,并且将获得包含全部索...

    用户1148526
  • 记一次惊心动魄的数据操作过程

    某客户集群的一个节点磁盘使用率达到100%,集群写保护,被禁止写入了,ES集群存储是以节点为单位来计算集群容量的。那么本客户集群是多节点、低配置,集群索引设置1...

    南非骆驼说大数据
  • AWS之野望:All World Server

    The future is already here, it’s just not evenly distributed.

    赵成
  • 图解Elasticsearch之一——索引创建过程

    以下是我们的Core Elasticsearch:Operations课程中的一些很棒的幻灯片,它们有助于解释分片分配的概念。 我们建议您更全面地了解这一点,但...

    铭毅天下
  • angularjs中 *.min.js.map 404的问题

    初次使用AngularJS,在chrom调试的时候,出现如下问题: GET http://localhost:63342/luosuo/visitor/js/l...

    Ryan-Miao

扫码关注云+社区

领取腾讯云代金券