词汇表

最近更新时间:2024-08-09 16:34:21

我的收藏

D

倒排索引

关系型数据库通过增加索引到指定的列上,来提升数据检索速度,例如一个 B 树(B-tree)索引。Elasticsearch 和 Lucene 使用倒排索引的结构来达到相同的目的。默认的,一个文档中的每一个属性都是被索引(有一个倒排索引)和可搜索的。一个没有倒排索引的属性是不能被搜索到的。

E

ES

参见 Elasticsearch Service

Elasticsearch Service

腾讯云 Elasticsearch Service(ES)是腾讯云基于开源搜索引擎 Elasticsearch 打造的高可用、可伸缩的云端托管 Elasticsearch 服务。腾讯云 ES 服务 100% 兼容 ELK 架构,广泛应用于互联网、游戏、互联网金融等领域客户网站搜索导航、企业级搜索、服务日志异常监控、点击流分析等业务。

F

分片

  • 在 Elasticsearch Service 中,分片(Shards)是数据的容器,文档保存在分片内,一个分片是一个底层的工作单元,它仅保存了全部数据中的一部分,分片又被分配到集群内的各个节点里,当您的集群规模扩大或者缩小时,Elasticsearch 会自动的在各节点中迁移分片,使得数据仍然均匀分布在集群里。
    一个分片可以是主分片或者副本分片。索引内任意一个文档都归属于一个主分片,所以主分片的数目决定着索引能够保存的最大数据量(技术上来说,一个主分片最大能够存储 Integer.MAX_VALUE - 128 个文档)。
    一个副本分片(Replicas)只是一个主分片的拷贝。副本分片作为硬件故障时保护数据不丢失的冗余备份,并为搜索和返回文档等操作提供服务。在索引建立的时候就已经确定了主分片数,但是副本分片数可以随时修改。
  • 在腾讯云数据仓库 TCHouse-C 中,将海量数据分散存储到多个节点上,每个节点只存储和处理海量数据的一部分,每台节点被称为一个分片(Shard)。
  • 在向量数据库中,为了支持更大规模的数据,集合一般会按某个维度分成多个部分,每个部分就是一个分片(Shard),分布在若干个节点(Node)上。为了保证可靠性和可用性,同一个集合的多个分片会分布在不同节点(Node)上。

J

集群和节点

一个运行中的 Elasticsearch 实例称为一个节点(node),同一网络内一个或者多个拥有相同集群名(cluster.name)配置并网络互通的节点组成 Elasticsearch 集群(cluster)。集群内的节点共同承担数据的存储和查询请求,当有节点加入集群中或者从集群中移除时,集群将会重新平均分布所有的数据。每个节点都知道任意文档所处的位置,无论用户将请求发送到哪个节点,都能够将请求直接转发到存储所需文档的节点,并从各个包含所需文档的节点收集回数据,将最终结果返回给客户端。

S

索引

  • 在 Elasticsearch Service 中:
    • 索引(名词)类似于传统关系数据库中的一个数据库,是存储关系型文档的地方。索引的复数词为 indices 或 indexes。
    • 索引(动词)一个文档就是存储一个文档到一个索引(名词)中,以便它可以被检索和查询。除了文档已存在时新文档会替换旧文档情况之外,这类似于 SQL 语句中的 INSERT 关键词。
  • 在日志服务中:
    为了快速检索出需要的日志,日志服务对上传至平台的日志进行包括分词在内的很多预处理,这个过程称之为创建“索引(index)”。索引决定了日志能够以什么样的条件来进行检索和分析,因此在上传日志数据前,需要为日志主题设置一个合理的索引规则,以方便后续检索分析。索引主要包括全文索引及键值索引两类,详细介绍请参见 配置索引
  • 在向量数据库中:
    索引(Index)是一种特殊的数据结构,用于快速查找和访问数据,存储在内存中。索引本身并不存储数据,而是存储指向数据存储位置的指针或键值对。Tencent Cloud VectorDB 支持 FLAT、HNSW 等常见的向量索引。索引介绍详见 向量检索

W

文档

  • Elasticsearch 是面向文档(document)的,它存储的是整个对象或文档,并且索引每个文档的内容使之可以被检索。Elasticsearch 使用 JSON 作为文档的序列化格式,简单、简洁、易于阅读。JSON 序列化被大多数编程语言所支持,并且已经成为 NoSQL 领域的标准格式。在 Elasticsearch 中,用户不是对行列数据进行检索,而是对文档进行索引、检索、排序和过滤,这是一种完全不同的思考数据的方式,也是 Elasticsearch 能支持复杂全文检索的原因。
  • 在向量数据库中,集合 可以看作是一个表格,而 Document 可以看作是表格中的一行数据。每个 Document 代表一个完整的文档对象,包含了多个 Field,每个 Field 表示文档中的一个属性或字段。向量数据库的文档是一组键值对(key:value),每个文档都有一个唯一主键(id)和一个向量字段(vector)。在插入文档时,向量数据库不需要设置相同的字段,可以在插入数据时增加或删除字段。