前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Elasticsearch的基本概念和指标

Elasticsearch的基本概念和指标

作者头像
静儿
发布2019-04-09 15:52:26
1.1K0
发布2019-04-09 15:52:26
举报
文章被收录于专栏:编程一生编程一生编程一生

背景

在13年的时候,我开始负责整个公司的搜索引擎。嗯……,不是很牛的那种大项目负责人。而是整个搜索就我一个人做。哈哈。

后来跳槽之后,所经历的团队都用Elasticsearch,基本上和缓存一样,是项目必备的工具。目前静儿在做的项目中也在用,正好系统学习一下。毕竟静儿的梦想就是打造自己的搜索引擎。

目录

1.近实时(NRT NearRealtime)

2.集群(Cluster)

3.节点(Node)

4.索引(Index)

5.文档(Document)

6.分片和副本(Shards & Replicas)

7.缓存数据(fielddata)

8.文档值(doc values)

9.行为模式(norms)

10.召回率(Recall Rate)

11.准确率(Precision)

正文

1.近实时(NRT NearRealtime)

ES是一个近实时的搜索平台,就是说从开始创建索引到能被搜索到只有很少的延时(通常是1s)。

2.集群(Cluster)

集群是一个或者多个节点(Node)协同工作来承载所有的数据,并提供跨所有节点的索引和搜索能力。一个集群有一个唯一名称作为标识,默认叫「elasticsearch」。因为在有多个节点的情况下,节点都是通过集群名来确定被安装到哪个集群,所以集群名很重要。

3.节点(Node)

节点是集群的一部分,就是集群里的一个服务器。它存储着数据,给提供集群的索引和搜索能力。像集群一样,一个节点也是用名称来做标识。它默认是一个在节点启动时被指定的随机UUID(Universally Unique Ientifier全局唯一标识)。如果不想用默认值,也可以自定义节点名。因为它是作为网络中的服务器和节点关系的纽带,所以这个名字对集群的管理来说很重要。

4.索引(Index)

索引是有相同特性的文档集合。举个栗子?:可以定义一个存储客户端数据的索引,建一个产品目录索引,再来一个顺序数据的索引。它也是靠名称来作为唯一标识的。通过索引名可以对索引内的文档进行索引添加、更新、搜索、删除等操作。

5.文档(Document)

文档是可以被索引的最小单元。举个栗子?:可以定义一个存储客户端数据的文档,建一个产品目录文档,再来一个顺序数据的文档。文档是用JSON(JavaScript Object Notation)来表示的。JSON是一个非常通用的数据传输形式。

6.分片和副本(Shards & Replicas)

为了解决让索引可以存储超过一个节点机器硬件限制的数据的问题。ES提供了将索引分割成多块的能力。这个数据小块叫做分片。创建索引时可以指定分片数量(副本数)。每个分片内部都是独立的,功能完整的。可以随便移植到集群的任何一个节点上。

7.缓存数据(fielddata)

缓存数据是文本字段使用的一个用于内存查询的数据结构。这个数据结构是第一次使用的时候被按需加载来用于聚合、排序或者脚本运算的。是通过读取所有段内的整个倒排索引,反转词条和文档关系,把结果存储到JVM堆中实现的。

8.文档值(doc values)

通过数据结构来进行聚合工作被叫做文档值。文档值是让聚合快速、高效、内存友好的手段。

9.行为模式(norms)

norms中国人一般大家也说norms。因为翻译过来的不能很贴切的表达原义。它存储了很多用于查询时计算评分的标准引子。

10.召回率(Recall Rate)

召回率也叫查全率是检索出的相关文档数和文档库中所有的相关文档数的比率。衡量的是检索结果是查全率。

11.准确率(Precision)

准确率也叫精度是检索出的相关文档数与检索出的文档总数的比率。衡量的是检索结果的查准率。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019-03-26 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
Elasticsearch Service
腾讯云 Elasticsearch Service(ES)是云端全托管海量数据检索分析服务,拥有高性能自研内核,集成X-Pack。ES 支持通过自治索引、存算分离、集群巡检等特性轻松管理集群,也支持免运维、自动弹性、按需使用的 Serverless 模式。使用 ES 您可以高效构建信息检索、日志分析、运维监控等服务,它独特的向量检索还可助您构建基于语义、图像的AI深度应用。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档