专栏首页java相关资料elasticsearch-快速入门

elasticsearch-快速入门

什么是Elasticsearch

Elasticsearch (ES)是一个基于Lucene构建的开源、分布式、RESTful 接口全文搜索引擎。Elasticsearch 还是一个分布式文档数据库,其中每个字段均是被索引的数据且可被搜索,它能够扩展至数以百计的服务器存储以及处理PB级的数据。它可以在很短的时间内在储、搜索和分析大量的数据。它通常作为具有复杂搜索场景情况下的核心发动机。 Elasticsearch就是为高可用和可扩展而生的。可以通过购置性能更强的服务器来完成。

Elasticsearch优势

1.横向可扩展性:只需要增加台服务器,做一点儿配置,启动一下Elasticsearch就可以并入集群。 2.分片机制提供更好的分布性:同一个索引分成多个分片(sharding), 这点类似于HDFS的块机制;分而治之的方式可提升处理效率。 3.高可用:提供复制( replica) 机制,一个分片可以设置多个复制,使得某台服务器在宕机的情况下,集群仍旧可以照常运行,并会把服务器宕机丢失的数据信息复制恢复到其他可用节点上。

Elasticsearch应用场景

1.大型分布式日志分析系统ELK elasticsearch(存储日志)+logstash(收集日志)+kibana(展示数据) 2.大型电商商品搜索系统 3.网站站内搜索 4.网盘搜索引擎等。

Elasticsearch存储结构

Elasticsearch是文件存储,Elasticsearch是面向文档型数据库,一条数据在这里就是一个文档,用JSON作为文档序列化的格式(跟MongoDB类似了) 关系数据库 ⇒ 数据库 (会员数据库)⇒ 表 (用户表) ⇒ 行 ⇒ 列(Columns) Elasticsearch ⇒ 索引(Index) ⇒ 类型(type) ⇒ 文档(Docments) ⇒ 字段(Fields)

elasticsearch-版本控制(乐观锁机制)

为什么要进行版本控制CAS无锁

为了保证数据再多线程操作下的准确性

悲观锁和乐观锁
悲观锁:

假设会发生并发冲突,屏蔽一切可能违反数据准确性的操作 (这种方法被关系型数据库广泛使用,它假定有变更冲突可能发生,因此阻塞访问资源以防止冲突。一个典型的例子是读取一行数据之前先将其锁住,确保只有放置锁的线程能够对这行数据进行修改。)

乐观锁:

假设不会发生并发冲突,只在提交操作是检查是否违反数据完整性。 (Elasticsearch 中使用的这种方法,它假定冲突是不可能发生的,所以不会阻塞正在尝试的操作。 然而,如果源数据在读写当中被修改,更新将会失败。应用程序接下来将决定该如何解决冲突。 例如,可以获取新的数据,重试更新、或者将相关情况报告给用户。)

内部版本控制和外部版本控制
内部版本控制:

_version自增长,修改数据后,_version会自动的加1

外部版本控制:
为了保持_version与外部版本控制的数值一致

使用version_type=external检查数据当前的version值是否小于请求中的version值

正排索引

白话文理解:

查询表中所有文档,是否包含我们所查的关键字信息,查到则记录文档位置,
直到所有文档都检索完毕,才返回内容效率相对来说比较慢

正排表是以文档的ID为关键字,表中记录文档中每个字的位置信息,查找时扫描表中每个文档中字的信息直到找出所有包含查询关键字的文档。 这种组织方法在建立索引的时候结构比较简单,建立比较方便且易于维护;因为索引是基于文档建立的,若是有新的文档加入,直接为该文档建立一个新的索引块,挂接在原来索引文件的后面。若是有文档删除,则直接找到该文档号文档对应的索引信息,将其直接删除。但是在查询的时候需对所有的文档进行扫描以确保没有遗漏,这样就使得检索时间大大延长,检索效率低下。 尽管正排表的工作原理非常的简单,但是由于其检索效率太低,除非在特定情况下,否则实用性价值不大。

倒排索引

白话文理解:

从关键字相对应记录表,查询关键字所记录的所有文档id,返回给用户,效率也相对比较低
因为倒排索引表可能会随着操作,经常发生改变,所以记录表也会经常改变.

倒排表以字或词为关键字进行索引,表中关键字所对应的记录表项记录了出现这个字或词的所有文档,一个表项就是一个字表段,它记录该文档的ID和字符在该文档中出现的位置情况。 由于每个字或词对应的文档数量在动态变化,所以倒排表的建立和维护都较为复杂,但是在查询的时候由于可以一次得到查询关键字所对应的所有文档,所以效率高于正排表。在全文检索中,检索的快速响应是一个最为关键的性能,而索引建立由于在后台进行,尽管效率相对低一些,但不会影响整个搜索引擎的效率。

正排索引是从文档到关键字的映射(已知文档求关键字),倒排索引是从关键字到文档的映射(已知关键字求文档)。

例如: 注意:倒排索引表会一般会持久化存在硬盘中 文档内容:

序号

文档内容

1

小俊是一家科技公司创始人,开的汽车是奥迪a8l,加速爽。

2

小薇是一家科技公司的前台,开的汽车是保时捷911

3

小红买了小薇的保时捷911,加速爽。

4

小明是一家科技公司开发主管,开的汽车是奥迪a6l,加速爽。

5

小军是一家科技公司开发,开的汽车是比亚迪速锐,加速有点慢

如果我要查询比亚迪关键字的话,es会从序号1文档开始到序号5全文检索完毕,将检索到的文档位置,返回给视图层,展现给用户,这样效率非常慢的

倒排索引会对以上文档内容进行关键词分词,可以使用关键次直接定位到文档内容。

单词ID

单词

1

1

1,2,3,4,5

2

一家

1,2,4,5

3

科技公司

1,2,4,5

4

开发

4,5

5

汽车

1,2,4,5

6

奥迪

1,4

7

加速爽

1,3,4

8

保时捷

2,3

9

保时捷911

2

10

比亚迪

5

我要查询比亚迪关键字,会先从倒排索引记录表,查询是否有比亚迪这个关键字,如果有直接返回所记录的所有文档ID,然后返回给视图层,展现给用户

什么是文档映射

ES的文档映射(mapping)机制用于进行字段类型或分词器确认,将每个字段匹配为一种确定的数据类型。-就相当于在设计表的时候为字段指定类型.

ES支持哪些数据类型

基本字段类型 字符串:text(分词)、keyword(不分词)、StringField(不分词文本)、TextFiled(要分词文本) text默认为全文文本,keyword默认为非全文文本 数字:long、integer、short、double、float 日期:date 逻辑:boolean 复杂数据类型 对象类型:object 数组类型:array 二进制型:binary 地理位置:geo_point、geo_shape

映射分类

动态映射

我们知道,在关系数据库中,需要事先创建数据库,然后在该数据库实例下创建数据表,然后才能在该数据表中插入数据。而ElasticSearch中不需要事先定义映射(Mapping),文档写入ElasticSearch时,会根据文档字段自动识别类型,这种机制称之为动态映射。

静态映射

在ElasticSearch中也可以事先定义好映射,包含文档的各个字段及其类型等,这种方式称之为静态映射。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 由浅入深之层层升级探索单例模式

    可以发现,我第一次获取完对象后,第二次通过反射的形式,来创建对象,所以变相的破解了单例模式

    黎明大大
  • JVM内存分配机制之栈上分配与TLAB的区别

    在java开发中,我们普遍认知中,new出的对象是直接分配到堆空间中,而实际情况并非如此,其实大家伙可以思考一下,无论方法的生命周期长与短,只要new的对象就存...

    黎明大大
  • 一文搞懂JVM内存结构,程序员必须掌握的知识

    Java内存模型(Java Memory Model ,JMM)就是一种符合内存模型规范的,屏蔽了各种硬件和操作系统的访问差异的,保证了Java程序在各种平台下...

    黎明大大
  • Elasticsearch文档和映射

    在Elasticsearch的说法中,文档是序列化的JSON数据。在典型的ELK设置中,当您发送日志或度量标准时,它通常会发送到Logstash,Logstas...

    February
  • 那些可多人协作编辑的在线文档工具

    最近使用了下石墨文档,简直就是在线版的Word,Excel,PPT,而且可以多人实时编辑预览,真的太好用了,搜索了下发现这种在线文档工具还挺多的,这里做个整理推...

    苏生不惑
  • 多种贝叶斯模型构建及文本分类的实现

    多种贝叶斯模型构建及文本分类的实现 当前数据挖掘技术使用最为广泛的莫过于文本挖掘领域,包括领域本体构建、短文本实体抽取以及代码的语义级构件方法研究。常用的数据...

    机器学习AI算法工程
  • ElasticSearch 索引

    假设我们刚好在一家工作,这时人力资源部门出于某种目的需要让我们创建一个员工目录,它有以下不同的需求:

    smartsi
  • jquery中使用event.stopPropagation()阻止事件冒泡

    案例如上图:点文档关闭菜单,点按钮打开菜单。因为按钮在文档内,所以会产生事件冒泡使得在点按钮打开菜单时无法正常执行。所以我们需要阻止事件冒泡。例子代码如下: ...

    用户1730674
  • Android Eclipse关联本地android API doc文档

    步骤: 1、右键任意一个项目(选中properties) 2、打开Java Build Path找到Libraries选项然后打开Android2.3.3(可能...

    苦咖啡
  • ElasticSearch最全详细使用教程:索引别名、分词器、文档管理、路由、搜索详解

    导读:上篇我们分享了ElasticSearch最全详细使用教程:入门、索引管理、映射详解,本文详细介绍ElasticSearch的索引别名、分词器、文档管理、路...

    java思维导图

扫码关注云+社区

领取腾讯云代金券