首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

我应该直接存储字符串还是将它们的数字标记存储在elasticsearch中

对于存储字符串还是将其数字标记存储在elasticsearch中,取决于具体的需求和使用场景。

如果字符串具有一定的结构和语义,并且需要进行全文搜索、模糊匹配、聚合分析等复杂的文本操作,那么将字符串存储在elasticsearch中是一个不错的选择。elasticsearch是一个开源的分布式搜索和分析引擎,具有强大的全文搜索能力和灵活的数据分析功能。它可以对文本进行索引、搜索和分析,支持复杂的查询和聚合操作,适用于日志分析、搜索引擎、推荐系统等场景。

然而,如果字符串只是作为标识符或者简单的键值对存在,并且不需要进行复杂的文本操作,直接存储字符串可能更加简单和高效。在这种情况下,可以选择使用关系型数据库或者键值存储等简单的数据存储方式。关系型数据库如MySQL、PostgreSQL等提供了稳定可靠的数据存储和查询能力,适用于大部分常见的业务场景。键值存储如Redis、Memcached等则提供了高速的键值对存储和缓存能力,适用于对读写性能要求较高的场景。

总结来说,如果需要进行复杂的文本操作和分析,推荐将字符串存储在elasticsearch中;如果只是简单的标识符或键值对,可以直接存储字符串或选择其他简单的数据存储方式。具体选择应根据实际需求和系统架构进行权衡和决策。

腾讯云相关产品推荐:

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

深入解析Elasticsearch内部数据结构和机制:行存储、列存储与倒排索引之列存(二)

与传统存储文档每个字段值作为文档一部分存储)不同,Doc Values 采用列式存储,这意味着它们按字段组织数据,而不是按文档。...三、Doc Values 工作原理 Elasticsearch ,当索引一个文档时,除了字段值存储倒排索引以支持全文搜索外,还会为需要排序或聚合字段生成 Doc Values。...Doc Values 关键优势在于它们能够直接提供字段值,而无需重新解析存储原始 JSON 文档(通常存储 _source 字段)。...这是因为 Doc Values 是索引时预先计算和存储,因此它们可以非常快速地加载到内存,并直接用于排序和聚合操作。...对于字符串类型字段,Doc Values 也可以通过顺序表对字符串进行数字编码,然后再对数字类型构建 Doc Values。这种方式间接地支持了字符串类型压缩。

17510

GitHub代码搜索服务发展历史

该搜索界面让您在源代码输入您要查找任何内容,并获得我们公共存储匹配任何文件突出显示结果。 您还将获得一个侧边栏,其中包含结果语言细分和存储库细分方面计数。...Code Search 也开始 GitHub 上抓取公共存储库,从而为开发人员提供了一种搜索它们替代方法。...最终,它执行标记化,规范化输入文档拆分为应该对其出现进行索引标记列表。 许多可用于文本分析功能和默认值都适用于索引自然语言文本。...如果仔细观察,您会发现查询字符串中被忽略字符列表! 由该拆分产生标记然后进行最后一轮拆分,提取以 CamelCase 和 snake_case 分隔单词部分作为附加标记,使它们可搜索。...此外,即使标记化改进之后,仍然有许多不受支持用例(如子字符串搜索和正则表达式)我们看不到任何途径。最终,完全匹配搜索短短半年多时间里就消失了。

1.3K10

Elasticsearch从入门到放弃:瞎说Mapping

Mapping Elasticsearch 地位相当于关系型数据库 schema,它可以用来定义索引字段名字、定义字段数据类型,还可以用来做一些字段配置。...找几个工作中常见来介绍一下。 首先就是字符串了,Elasticsearch 字符串有 text 和 keyword 两种。...秒级时间戳用 integer 类型表示 Elasticsearch 内部,日期类型是以 long 类型毫秒级时间戳存储,时区使用是0时区。...null_value null Elasticsearch 是不可以被索引或搜索,这里我们所说 null 并不是狭义上某种语言 null,而是所有的空值。...还提供了一种把字符串数字识别为数字能力,它是由 numeric_detection 开关控制

91120

2019年常见Elasticsearch 面试题答案详细解析(下)

在这种情况下,您可以使用Elasticsearch存储整个产品目录和库存,并为它们提供搜索和自动完成建议。 (2)你希望收集日志或事务数据,并希望分析和挖掘这些数据,以查找趋势、统计、汇总或异常。...在这种情况下,你可以抓取供应商价格,将它们推入到Elasticsearch,并使用其反向搜索(Percolator)功能来匹配价格走势与客户查询,并最终找到匹配后警报推送给客户。...* 15、 Elasticsearch ,是怎么根据一个词找到对应倒排索引? (1)Lucene索引过程,就是按照全文检索基本过程,倒排表写成此文件格式过程。...(2)存储:使用 SSD (3)段和合并:Elasticsearch 默认值是 20 MB/s,对机械磁盘应该是个不错设置。如果你用是 SSD,可以考虑提高到 100–200 MB/s。...无论数千还是数十亿唯一值,内存使用量只与你配置精确度相关。 19、并发情况下,Elasticsearch 如果保证读写一致?

70640

2019年常见Elasticsearch 面试题答案详细解析(下)

在这种情况下,您可以使用Elasticsearch存储整个产品目录和库存,并为它们提供搜索和自动完成建议。 (2)你希望收集日志或事务数据,并希望分析和挖掘这些数据,以查找趋势、统计、汇总或异常。...在这种情况下,你可以抓取供应商价格,将它们推入到Elasticsearch,并使用其反向搜索(Percolator)功能来匹配价格走势与客户查询,并最终找到匹配后警报推送给客户。...3、 Elasticsearch ,是怎么根据一个词找到对应倒排索引? (1)Lucene索引过程,就是按照全文检索基本过程,倒排表写成此文件格式过程。...(2)存储:使用 SSD (3)段和合并:Elasticsearch 默认值是 20 MB/s,对机械磁盘应该是个不错设置。如果你用是 SSD,可以考虑提高到 100–200 MB/s。...无论数千还是数十亿唯一值,内存使用量只与你配置精确度相关。 7、并发情况下,Elasticsearch 如果保证读写一致?

60110

一起学 Elasticsearch 系列 -Mapping

当这些字段被查询时,Elasticsearch 会考虑它们值来重新排序搜索结果。 文本搜索类型 text:用于存储全文和进行全文搜索数据类型。...annotated-text:这是一个特殊文本字段,它支持包含标记文本。这些标记表示文本命名实体或其他重要项,可以在后续搜索中使用。...通常情况下,当一个新文档被索引到Elasticsearch,如果其中包含了未在mapping定义字段,Elasticsearch就会尝试根据这个新字段数据类型自动生成相应mapping。...注意: Elasticsearch 7.0 之后,映射类型被废弃,所有的映射参数直接放在 "properties" 下。...映射参数 Elasticsearch,映射参数是用于定义如何处理文档和其包含字段规则。

33530

ElasticSearch学习笔记之原理介绍

索引(Index): ES数据存储于一个或多个索引,索引是具有类似特性文档集合。类比传统关系型数据库领域来说,索引相当于SQL一个数据库,或者一个数据存储方案(schema)。...ES,所有的文档存储之前都要首先进行分析。用户可根据需要定义如何文本分割成token、哪些token应该被过滤掉,以及哪些文本需要进行额外处理等等。...由于buffer索引片先同步到文件系统缓存,再刷写到磁盘,因此检索时可以直接检索文件系统缓存,保证了实时性。...文档被创建时,Elasticsearch会为该文档指定一个版本号。当执行更新时,旧版本文档.del文件中被标记为删除,新版本文档被索引到一个新段。...不过,很少有机会需要把query用于filter上。 结构化搜索:是指查询包含内部结构数据。日期,时间,和数字都是结构化它们有明确格式给你执行逻辑操作。

1K20

2022年Java秋招面试,程序员求职必看Elasticsearch 面试题

前言随着企业对近实时搜索迫切需求,Elasticsearch 受到越来越多关注,无论是阿里、腾讯、京东等互联网企业,还是平安、顺丰等传统企业都对 Elasticsearch 有广泛使用,但是 Elasticsearch...在这种情况下,你可以抓取供应商价格,将它们推入到Elasticsearch,并使用其反向搜索(Percolator)功能来匹配价格走势与客户查询,并最终找到匹配后警报推送给客户。...(3)文档被创建时,Elasticsearch 会为该文档指定一个版本号,当执行更新时,旧版本文档.del 文件中被标记为删除,新版本文档被索引到一个新段。...你应该增加你文件描述符,设置一个很大值,如 64,000。19、对于 GC 方面,使用 Elasticsearch 时要注意什么?...无论数千还是数十亿唯一值,内存使用量只与你配置精确度相关。21、并发情况下,Elasticsearch 如果保证读写一致?

53220

Elasticsearch常见面试题

文档被创建时,Elasticsearch 会为该文档指定一个版本号,当执行更新时,旧版本文档 .del 文件中被标记为删除,新版本文档被索引到一个新段。...17.什么是ElasticSearch编译器? 编译器用于字符串分解为术语或标记流。一个简单编译器可能会将字符串拆分为任何遇到空格或标点地方。...19.ElasticSearch分析器是什么? ElasticSearch索引数据时,数据由为索引定义Analyzer在内部进行转换。...编译器可以一个或多个CharFilter之前。分析模块允许您在逻辑名称下注册分析器,然后可以映射定义或某些API引用它们Elasticsearch附带了许多可以随时使用预建分析器。...无论数千还是数十亿唯一值,内存使用量只与你配置精确度相关。 23. 对于GC方面,使用ES时要注意什么?

31710

2 行代码, .NET 执行时间降低 87%!(附代码)

1、找出优化对象 最近,研究Elasticsearch.NET客户端代码库。对库某些热路径性能感到好奇。...然后,遍历带有标记URL每个字符串。URL路径标记元素存储字符串数组字段“_tokenized”每次迭代,如果字符串值以“@”字符开头,则表明需要用相应值替换它。...对于不需要替换路径任何部分,则无需修改即可将它们直接附加到StringBuilder上(第21行)。...既然URL不需要替换,那么其中就只包含完整原始URL路径字符串直接返回就可以了。 2、优化代码 进行任何优化之前,需要先做两件事。首先,需要检查现有代码是否有足够单元测试。...接下来我们检查标记数字是否包含一个元素,以及该元素首字母不是“@”字符。

46941

Elasticsearch面试题(2021最新版)

前言 随着企业对近实时搜索迫切需求,Elasticsearch 受到越来越多关注,无论是阿里、腾讯、京东等互联网企业,还是平安、顺丰等传统企业都对 Elasticsearch 有广泛使用,但是...在这种情况下,你可以抓取供应商价格,将它们推入到Elasticsearch,并使用其反向搜索(Percolator)功能来匹配价格走势与客户查询,并最终找到匹配后警报推送给客户。...(3)文档被创建时,Elasticsearch 会为该文档指定一个版本号,当执行更新时,旧版本文档.del 文件中被标记为删除,新版本文档被索引到一个新段。...你应该增加你文件描述符,设置一个很大值,如 64,000。 19、对于 GC 方面,使用 Elasticsearch 时要注意什么?...无论数千还是数十亿唯一值,内存使用量只与你配置精确度相关。 21、并发情况下,Elasticsearch 如果保证读写一致?

4.1K12

触类旁通Elasticsearch:操作

基本数据类型 (1)字符串 如果在索引字符,字段就应该是text类型,索引中有很多选项来分析它们。解析文本、转变文本、将其分解为基本元素使得搜索更为相关。...图1 默认分析器字符串分解为词条后,随后搜索匹配了那些词条 分析过程生成了4个词条,即late、night、with和elasticsearch。查询字符串经过同样处理。...如果只想严格匹配某个字段,就像SQLwhere name = 'late',应该整个字段作为一个单词对待。ES对文本类型keyword字段不做分析,而是整个字符串当做单独词条进行索引。...删除文档 删除单个或一组文档时,ES只是将它们标记为删除,所以它们不会在出现于搜索结果,稍后ES通过异步方式将它们彻底从索引删除。...删除索引时候,文件只是被标记为已删除,分段进行合并时,它们才会被删除。这里合并是指多个Lucene小分段组合为一个更大分段过程。 3.

3.4K20

使用Sentence Transformers和Faiss构建语义搜索引擎

索引、矢量化和排序方法 深入学习本教程之前,简要解释基于关键字和基于向量搜索引擎如何进行以下工作 索引文档(即以一种容易检索形式存储它们 向量化文本数据 衡量文档与查询相关性 这将帮助我们突出两种系统之间差异...1、基于关键字搜索引擎 让我们以一个过于简化Elasticsearch为例。Elasticsearch使用标记文档分割成标记(即有意义文本单位),这些标记映射到数字序列,并用于构建反向索引。...为了找到相关文档并对其进行排序,Elasticsearch布尔模型(BM)与向量空间模型(VSM)结合在一起。BM标记包含用户查询文档,VSM评分它们相关性。...我们还需要一种高效可靠方法来检索存储索引相关文档。...我们例子,我们将从Microsoft Academic Graph向量映射到它们论文id。 为了测试索引是否按预期工作,我们可以使用索引向量查询它,并检索其最相似的文档以及它们距离。

2.3K20

【2022最新Java面试宝典】—— ElasticSearch面试题(31道含答案)

在这种情况下,您可以使用 Elasticsearch存储整个产品目录和库存,并为它们提供搜索和自动完成建议。...在这种情况下,你可以抓取供应商价 格,将它们推入到Elasticsearch,并使用其反向搜索(Percolator)功能来匹配价格走势与客户查询, 并最终找到匹配后警报推送给客户。...(3)文档被创建时,Elasticsearch 会为该文档指定一个版本号,当执行更新时,旧版本文档 .del 文件中被标记为删除,新版本文档被索引到一个新段。... Elasticsearch ,是怎么根据一个词找到对应倒排索引? (1)Lucene索引过程,就是按照全文检索基本过程,倒排表写成此文件格式过程。...无论数千还是数十亿唯一值,内存使用量只与你配置精确度相关。 21. 并发情况下,Elasticsearch 如果保证读写一致?

73220

干货 | Elasticsearch 6个不明显但很重要注意事项

2.两种数据集 2.1 数据集分类 基本上,你可以Elasticsearch索引(即存储)您想要任何数据。但实际上有两类:静态数据和时间序列数据。它们会严重影响群集配置和管理方式。...静态数据是可能会缓慢增长或变化数据集。像目录或物品清单。 你可以将它们视为存储常规数据库数据。如:博客文章,图书馆书籍,订单等。...你需要上Elasticsearch它们编制索引,以进行数据分析,模式发现和系统监视。 2.2 数据集建模方式 根据您存储数据类型,你应该以不同方式为集群建模。...5 分片计划 5.1 应该有多少分片和索引? 这是新手学习、实操Elasticsearch提出最常见问题。 为什么会出现这个问题?只能在索引创建最开始设置分片数。...5.2 实际分片注意事项 1)为了知道每个索引应该有多少分片,你可以简单地估计一下,通过一些文档索引到一个临时索引,看看它们消耗了多少内存,以及你希望一段时间内有多少文档。

2.1K30

【ES三周年】ElasticSearch 简要技术总结与Spark结合使用实践

对于我们程序而言,文档存储索引(index)。剩下细节由Elasticsearch关心既可。 2.3 Document Index 里面单条记录称为 Document(文档)。...这种分组就叫做 Type,它是虚拟逻辑分组,用来过滤 Document。 不同 Type 应该有相似的结构(schema),举例来说,id字段不能在这个组是字符串另一个组是数值。...user类对象可能包含姓名、性别、年龄和Email地址。 关系型数据库,我们经常将相同类对象存储一个表里,因为它们有着相同结构。...它不一定是数字,任意字符串(比如abc)都可以。 新增记录时候,也可以不指定 Id,这时要改成 POST 请求。...5.3 写入JSON对象 我们可以直接Json字符串写入到ElasticSearch,如下: String json1 = "{\"reason\" : \"business\",\"airport

1.7K81

第20篇-不和谐如何索引数十亿条消息

Elasticsearch系列文章,逐渐更新,欢迎关注 0A.关于Elasticsearch及实例应用 00.Solr与ElasticSearch对比 01.ElasticSearch能做什么?...索引包含一个文档类型: message 原始消息数据存储Elasticsearch几乎没有意义,因为数据格式不是易于搜索格式。...但是,这些字段实际上并没有“存储Elasticsearch,而是仅存储反向索引。实际存储和返回唯一字段是张贴消息消息,通道和服务器ID。...实际消息对象保留在Elasticsearch之外意味着我们不必为存储它而额外磁盘空间。但是,这意味着我们无法使用Elasticsearch突出显示搜索结果匹配项。...某个时候,我们启动更多集群,以便新Discord服务器被索引到它们上(这要归功于我们加权分片分发系统)。我们现有的集群上,随着向集群添加更多数据节点,我们需要限制主合格节点数量。

2.4K00

分析日志真的没那么简单

不过,日志应该要包含必要非敏感信息,比如当前用户 ID(最好是内部 ID,避免登录名或者用户名称)环境标, 避免引用慢操作 要知道,日志打印信息应该是在上下文中可以直接取到,而如果当前上下文中根本没有这项数据...那么原则上,程序中发生事件只要有价值,就应该去记录,但我们还是要判断清楚事件重要程度,选定相匹配日志级别。...加工与聚合 那么,日志集中收集之后,以及存入 Elasticsearch 之前,我们一般还要对它们进行加工转换和聚合处理,这一步通常就要使用到前面提过 Logstash。...而在进行结构化同时,它还可能会根据需要,调用其他插件来完成时间处理(统一时间格式)、类型转换(如字符串、数值转换)、查询归类(比如 IP 地址根据地理信息库按省市归类)等各种额外处理工作,然后以...Kibana 宣传核心能力是“探索数据并可视化”,也就是把存储 Elasticsearch ,被检索、聚合、统计后数据,定制形成各种图形、表格、指标、统计,以此观察系统运行状态,找出日志事件潜藏规律和隐患

41320
领券