在Elasticsearch中应用聚合时禁用"lowercase_normalizer“规格化器

在Elasticsearch中，聚合（Aggregation）是一种用于分析和统计数据的功能。它允许我们根据指定的条件对文档进行分组、过滤和计算，并生成有关数据集的汇总信息。

在聚合过程中，Elasticsearch使用规格化器（Normalizer）来处理文本字段的值，以便在聚合操作中进行比较和排序。其中，"lowercase_normalizer"是一种规格化器，它将文本值转换为小写形式，以便在聚合操作中进行大小写不敏感的匹配。

然而，有时候我们可能需要禁用"lowercase_normalizer"规格化器，这可能是因为我们希望在聚合操作中保留原始的大小写形式，或者因为我们已经在索引阶段对文本进行了预处理，不需要再次进行大小写转换。

要禁用"lowercase_normalizer"规格化器，我们可以在定义聚合操作时指定一个不同的规格化器或者使用原始的字段值进行聚合。具体的方法取决于我们使用的聚合类型和查询语法。

以下是一些常见的聚合类型和禁用"lowercase_normalizer"规格化器的方法：

Terms Aggregation（词项聚合）：在Terms Aggregation中，我们可以通过在聚合操作中指定"keyword"字段来禁用规格化器。例如：

GET /index/_search
{
  "aggs": {
    "my_terms_agg": {
      "terms": {
        "field": "my_field.keyword"
      }
    }
  }
}

在上述示例中，我们使用了".keyword"后缀来引用原始的文本字段，而不是默认的规格化器字段。

Range Aggregation（范围聚合）：对于Range Aggregation，我们可以直接使用原始的文本字段进行聚合，而无需指定规格化器。例如：

GET /index/_search
{
  "aggs": {
    "my_range_agg": {
      "range": {
        "field": "my_field",
        "ranges": [
          { "to": 10 },
          { "from": 10, "to": 20 },
          { "from": 20 }
        ]
      }
    }
  }
}

在上述示例中，我们直接使用了"my_field"字段进行范围聚合。

需要注意的是，禁用"lowercase_normalizer"规格化器可能会导致聚合操作的结果受到大小写的影响。因此，在禁用规格化器时，我们需要确保数据的大小写一致性，以避免不准确的聚合结果。

关于Elasticsearch的更多信息和相关产品，您可以访问腾讯云的官方文档和产品页面：

相关·内容

用 Python 分析四年NBA比赛数据，实力最强的球队浮出水面

因为本人比较喜欢观看 NBA 比赛，所以用这个当做例子了，通过这个例子大家可以用到各种实际的生活和生产环境中。 ? 在正式讨论聚类前，我们要先弄清楚一个问题：如何定量计算两个可比较元素间的相异度。...欧氏距离和曼哈顿距离可以看做是闵可夫斯基距离在 p=2 和 p=1 下的特例。另外这三种距离都可以加权，这个很容易理解，不再赘述。下面要说一下标量的规格化问题。...例如上述例子中第三个属性的取值跨度远大于前两个，这样不利于真实反映真实的相异度，为了解决这个问题，一般要对属性值进行规格化。...例如，将示例中的元素规格化到 [0,1] 区间后，就变成了 X’={1,0,1}，Y’={0,1,0}，重新计算欧氏距离约为 1.732。 2....本文只是讲述关于聚类小案例的应用，其实聚类有着非常广泛的应用，包括图像分割，生物种群分类，其实早期移动公司也是根据聚类推出适合不同人群使用的电话卡（动感地带、全球通、神州行等）。

1.2K3 0

Thinking in SQL系列之：数据挖掘K均值聚类算法与城市分级

精通企业级数据库应用设计、SQL、算法实现、异常分析、性能优化。目前就职于日立咨询(中国)有限公司。...，其中第一代初始质心点根据GDP的分段城市的元素属性，TA1，再根据TA1的聚类点用算术平均法计算得到第二代质心点，SQL如下： WITH TA AS --整理度量值 TB AS --规格化，以消除属性值单位不同造成的影响...TA1 AS --第一代质心点选择，根据GDP TE AS --聚类选择，各元素取相异度最低的质心点可以在集合TA1后面做一个SELECT看一下第一代的质心点，如下图：执行SQL后看一下第二代的质心点...首先我们要把业务数据转换加载到训练集中，这是个简单的ETL过程，将城市GDP表数据经过抽取、维值[0,1]规格化转换、分配批次号3后最终加载到目标K-MEAN训练集： TB AS --规格化，以消除属性值单位不同造成的影响...根据CLUSTER_ID分类，可以看到北上广深以及其他的直辖市都在最繁荣的分类中，苏州、成都能够挤进去说明很有实力。鄂尔多斯领跑二线。。。这个城市也很有趣。

2.1K7 0

ELK弹性堆栈的心脏--Elasticsearch

这足以在服务器上运行单个开发节点。为了与其他服务器上的节点进行通信和形成集群，您的节点将需要绑定到非环回地址。...将绑定到可用的环回地址，并将扫描端口9300到9305尝试连接到在同一服务器上运行的其他节点。...这提供了自动聚类体验，而无需进行任何配置。当与其他服务器上的节点形成集群时，您必须提供集群中可能是活的和可联系的其他节点的种子列表。...有三种方法可禁用交换： Enable bootstrap.memory_lock 第一个选项是在Linux / Unix系统上使用mlockall，或者在Windows上使用VirtualLock...通常Elasticsearch是在框上运行的唯一服务，其内存使用由JVM选项控制。应该没有必要启用交换。在Linux系统上，可以通过运行以下命令临时禁用交换：sudo swapoff -a。

5411 0

R语言的kmeans客户细分模型聚类

前言 kmeans是最简单的聚类算法之一，但是运用十分广泛。最近在工作中也经常遇到这个算法。kmeans一般在数据分析前期使用，选取适当的k，将数据分类后，然后分类研究不同聚类下数据的特点。...但是可以重复执行几次kmeans，选取SSE最小的一次作为最终的聚类结果。 0-1规格化由于数据之间量纲的不相同，不方便比较。...如果a_i趋于0，或者b_i足够大，那么s_i趋近与1，说明聚类效果比较好。 K值选取在实际应用中，由于Kmean一般作为数据预处理，或者用于辅助分类贴标签。所以k一般不会设置很大。...(iris) 3 head(iris) 加载实验数据iris，这个数据在机器学习领域使用比较频繁，主要是通过画的几个部分的大小，对花的品种分类，实验中需要使用fpc库估计轮廓系数，如果没有可以通过install.packages...随机选取训练数据中的k个点作为起始点 2. 当k值选定后，随机计算n次，取得到最小开销函数值的k作为最终聚类结果，避免随机引起的局部最优解 3.

1.5K8 0

R语言之kmeans聚类理论篇！

前言 kmeans是最简单的聚类算法之一，但是运用十分广泛。最近在工作中也经常遇到这个算法。kmeans一般在数据分析前期使用，选取适当的k，将数据分类后，然后分类研究不同聚类下数据的特点。...但是可以重复执行几次kmeans，选取SSE最小的一次作为最终的聚类结果。 0-1规格化由于数据之间量纲的不相同，不方便比较。...如果a_i趋于0，或者b_i足够大，那么s_i趋近与1，说明聚类效果比较好。 K值选取在实际应用中，由于Kmean一般作为数据预处理，或者用于辅助分类贴标签。所以k一般不会设置很大。...head(iris) 加载实验数据iris，这个数据在机器学习领域使用比较频繁，主要是通过画的几个部分的大小，对花的品种分类，实验中需要使用fpc库估计轮廓系数，如果没有可以通过install.packages...随机选取训练数据中的k个点作为起始点 2. 当k值选定后，随机计算n次，取得到最小开销函数值的k作为最终聚类结果，避免随机引起的局部最优解 3.

3.2K11 0

微服务架构介绍与分类「建议收藏」

应用和团队的两个方面的功能分解是构建成功的微服务架构的关键。这样才能实现松耦合（REST接口）和高内聚（多个服务可以相互组合以定义更高级别的服务或应用程序）。...功能分解提供了敏捷性，灵活性，可伸缩性和其他功能，但业务目标仍然是创建应用程序。聚合器微服务设计模式第一种，也许是最常见的是聚合器微服务设计模式。...在最简单的形式中，聚合器可能就是一个简单的网页，它调用多个服务来实现应用程序所需的功能。...例如，如果可以使用NoSQL数据存储，则更合适，在SQL数据库中会干扰数据独立性。在这种设计模式中，一些在链条中的微服务可能共享缓存和数据库存储。这只有在两个服务之间存在强耦合时才有意义。...我们不必将应用程序部署到应用服务器中，而是独立运行我们的应用程序或在Docker容器中运行，因为应用已经包含服务器。Spring Boot可用于设置基于REST的微服务。

9122 0

让Elasticsearch飞起来!——性能优化实践干货

如果这个人在寻求中，能立刻得到即时满足，这种感觉就是爽！”。 Elasticsearch的爽点就是：快、准、全!...1.2 要留出容量Buffer 注意：Elasticsearch有三个警戒水位线，磁盘使用率达到85%、90%、95%。不同警戒水位线会有不同的应急处理策略。这点，磁盘容量选型中要规划在内。...3.2 Mapping各字段的选型流程 3.3 选择合理的分词器常见的开源中文分词器包括：ik分词器、ansj分词器、hanlp分词器、结巴分词器、海量分词器、“ElasticSearch最全分词器比较及使用方法...4.4 禁用swap 在Linux系统上，通过运行以下命令临时禁用交换： 1sudo swapoff -a 5、检索聚合优化实战 5.1 禁用 wildcard模糊匹配数据量级达到TB+甚至更高之后，...为了让Elasticsearch更高效的检索，建议： 1）要做足“前戏” 字段抽取、倾向性分析、分类/聚类、相关性判定放在写入ES之前的ETL阶段; 2）“睡服”产品经理产品经理基于各种奇葩业务场景可能会提各种无理需求

2.5K2 1

NeurIPS 2021 | 微观特征混合进行宏观时间序列预测

时间序列预测的应用非常的广泛，像股票预测、销量预测、贷款预测等等，在生产生活中发挥着极大的价值。...此时，可以对各个聚合时间序列进行建模，并汇总得到宏观时序结果。后续分析表明，在最优聚类前提下，上述方式能够提升宏观时序预测性能。...模式崩溃：际测试发现，优化上式中的变分下界可能面临这样一个问题：编码器q(z|x)容易将所有样本判定为同一类别，并没有像预期的一样将样本进行有效划分。...在这种情况下，编码器没有能够提取时间序列中有区分度的信息，即。为避免上述情况，在变分下界的基础上添加，期望模型能够在隐变量z中学到区别不同输入时序的信息。...仿真实验验证了MixSeq能够捕捉混合模型中不同成分的特征，较好地还原仿真数据真实类簇结果；公开数据上的预测实验表明，基于MixSeq的拆分预测可以提升宏观时序预测性能；同时在蚂蚁消费信贷的余额预测场景中

9521 0

【干货】Elasticsearch性能调优权威指南（13）

作者：Adam Vanderbush 译者：杨振涛搜索和分析是现代软件应用的两大关键特性。准实时地处理海量数据的扩展性和性能，是许多应用系统的基本要求，比如移动应用、web以及数据分析应用。...为了确定主分片数量，可以对集群状态、消息和容量做出如下规划：使用生产环境的硬件配置，在单台服务器上创建一个集群。创建一个与生产环境配置和分词器一样的索引库，只设置一个主分片，不设置副本。...有三种方式来禁用交换： 1.打开bootstrap.mlockall 通过Elasticsearch的mlockall属性配置，可以要求节点不发生内存交换（注意只在Linux/Unix系统上有效），在config.../elasticsearch.yml文件中增加下列配置项即可实现： bootstrap.mlockall: true 在5.x版本中已经改为： bootstrap.memory_lock: true....一旦在配置文件中设置了该值，需要重启Elasticsearch节点使之生效。

8741 0

Spring认证中国教育管理中心-Spring Data Elasticsearch教程二

原标题：Spring认证中国教育管理中心-Spring Data Elasticsearch教程二（Spring中国教育管理中心） 6.1.2.映射规则类型提示映射使用嵌入在发送到服务器的文档中的类型提示来允许泛型类型映射...通过覆盖writeTypeHints()派生自的配置类中的方法，可以为整个应用程序禁用类型提示 AbstractElasticsearchConfiguration（请参阅Elasticsearch 客户端...，在类型提示和自定义转换方面应用与聚合根相同的映射规则。..."friends" : [ { "firstname" : "Kyle", "lastname" : "Reese" } ] } 地图对于 Maps 中的值，在类型提示和自定义转换方面应用与聚合根相同的映射规则...该是在服务器端和一套生成到返回的实例。id 在字符类型下的奇迹索引中查找Person与匹配。id 删除从给定实例中提取的Person匹配字符id，在奇迹索引中的字符类型下。

1.1K2 0

面试之Solr&Elasticsearch

； 5.Solr 在传统的搜索应用中表现好于 Elasticsearch，但在处理实时搜索应用时效率明显低于 Elasticsearch。...6.Solr 是传统搜索应用的有力解决方案，但 Elasticsearch 更适用于新兴的实时搜索应用。 solr如何实现搜索的？...如何分词，新增词和禁用词如何解决 schema.xml文件中配置一个IK分词器，然后域指定分词器为IK 新增词添加到词典配置文件中ext.dic，禁用词添加到禁用词典配置文件中stopword.dic，...在ElasticSearch中索引数据时，数据由为索引定义的Analyzer在内部进行转换。分析器由一个Tokenizer和零个或多个TokenFilter组成。...编译器可以在一个或多个CharFilter之前。分析模块允许您在逻辑名称下注册分析器，然后可以在映射定义或某些API中引用它们。 Elasticsearch附带了许多可以随时使用的预建分析器。

2.1K1 0

Lucene&Solr&ElasticSearch-面试题

； 5.Solr 在传统的搜索应用中表现好于 Elasticsearch，但在处理实时搜索应用时效率明显低于 Elasticsearch。...6.Solr 是传统搜索应用的有力解决方案，但 Elasticsearch 更适用于新兴的实时搜索应用。...boost值，值越高相关性越高，排名就靠前 IK分词器原理本质上是词典分词，在内存中初始化一个词典，然后在分词过程中逐个读取字符，和字典中的字符相匹配，把文档中的所有词语拆分出来的过程 solr的索引查询为什么比数据库要快...如何分词，新增词和禁用词如何解决 schema.xml文件中配置一个IK分词器，然后域指定分词器为IK 新增词添加到词典配置文件中ext.dic，禁用词添加到禁用词典配置文件中stopword.dic，...然后在schema.xml文件中配置禁用词典： solr多条件组合查询创建多个查询对象，指定他们的组合关系，Occur.MUST（必须满足and），Occur.SHOULD（应该满足or），Occur.MUST_NOT

2.1K0 0

【干货】Elasticsearch性能调优权威指南（13）

5392 0

面试题之 Elasticsearch 性能优化详解

硬件配置优化升级硬件设备配置一直都是提高服务能力最快速有效的手段，在系统层面能够影响应用性能的一般包括三个因素：CPU、内存和 IO，可以从这三方面进行 ES 的性能优化工作。...可以通过在 elasticsearch.yml 中 bootstrap.memory_lock: true，以保持 JVM 锁定内存，保证 ES 的性能。...深度翻页在使用 Elasticsearch 过程中，应尽量避免大翻页的出现。...FieldDataCache: 在聚类或排序时，field data cache会使用频繁，因此，设置字段数据缓存的大小，在聚类或排序场景较多的情形下很有必要，可通过indices.fielddata.cache.size...关闭 data 节点服务器中的 http 功能针对 Elasticsearch 集群中的所有数据节点，不用开启 http 服务。

4781 0

IEEE754标准浮点数表示与舍入

2.2 非规格化的：E所有位都为0 在这种情况中，阶码值E=1-Bias,而尾数M二进制表示为0.f~-1~f~-2~f~-3~……f~n~，没有规格化值前面的1。非规格化值有两个用途。...在进行一些大量数据的统计时，这三种方式都回累计一个相当大的误差。...向偶数舍入的方式使得在大多数情况下，5舍去还是进位的概率是差不多的，在进行一些大量数据的统计时产生的偏差相较其他方式小一些。 4....(void) { float a = 2.1; float b = a + 3; return 0; } gcc编译下： $ gcc -O0 -g float.c // -O0禁用优化.../a.out 进入gdb后，输入start再输入layout asm查看反汇编结果：可以看到a的值被存入了寄存器eax，在gdb中通过i r eax查看eax寄存器中的值：可以看到eax寄存器中保存的值是

3261 0

ELK 集群 Kibana 使用 X-Pack 权限控制，监控集群状态，实时的生成，警报，监视,cpu，内存，磁盘空间，等等一系列，报告和的可视化图形

https://www.elastic.co/guide/en/x-pack/current/index.html Installing X-Pack 在Elasticsearch，Kibana和Logstash...plugins目录中 1.指定目录安装 bin/logstash-plugin install /opt/file/x-pack-5.5.2.zip 2.或者放在服务器，/tmp 目录下这样就不用指定目录了...您可以启用或禁用特定的X-Pack功能elasticsearch.yml，kibana.yml以及logstash.yml 配置文件。...xpack.security.enabled 设置为false禁用X-Pack安全功能。 xpack.watcher.enabled 设置false为禁用观察器。...2.使用 X-Pack 初始用户名密码用户名：changeme 密码为：changeme 修改密码修改kibana密码：修改之前需要在kibana.yml中配置elasticsearch的用户名和密码后才能需改密码

2.4K10 0

聊聊日志聚类算法及其应用场景

阅读《基于 Flink ML 搭建的智能运维算法服务及应用》一文后，对其中日志聚类算法有了些思考。...日志采集常用的日志采集方案是写完数据库多写一遍ElasticSearch；目前我个人推荐的方案是基于Flink CDC组件来采集。...分词和特征表述分词其实对于分词，我一开始想到的就是ElasticSearch中很重要的一个组件模块——————分析器。分析器由字符过滤器、分词器、词语(token)过滤器组成。...目前来看，日志聚类的应用完全是可以落地到当时的业务上的。...参考基于 Flink ML 搭建的智能运维算法服务及应用对智能化运维中日志聚类分析的一些思考 SREWorks v1.5 版本发布 | 基于实时作业平台的日志聚类开源揭秘阿里云Flink智能诊断利器

7101 0

深入理解Elasticsearch的索引映射(mapping)

一、映射基础在Elasticsearch中，映射类似于关系型数据库中的表结构定义。它描述了索引中字段的类型、如何索引这些字段以及如何处理这些字段的查询。...每个索引都有一个与之关联的映射类型，尽管在Elasticsearch 7.x中，每个索引只能有一个映射类型（与之前版本中的多个映射类型不同）。...在某些情况下，更好的做法是在应用程序层面处理null值，而不是依赖Elasticsearch的null_value功能。 2.8 format 用途：主要用于日期字段，指定日期的格式。...在实际应用中，您应该根据您的具体需求和资源限制来仔细选择这些选项。...测试与验证：在生产环境中应用映射更改之前，始终在测试环境中进行测试和验证。确保更改不会导致意外的行为或性能下降，并确保数据的完整性和准确性得到维护。

6621 0

ES系列八、正排索Doc Values和Field Data

如果您尝试对text 字段上的脚本进行排序，聚合或访问，您将看到以下异常：默认情况下，在文本字段上禁用Fielddata。...在设置 Elasticsearch 堆大小时需要通过 $ES_HEAP_SIZE 环境变量应用两个规则： 1、不要超过可用 RAM 的 50% Lucene 能很好利用文件系统的缓存，它是通过系统内核管理的...默认情况下，这个设置是禁用的，Elasticsearch 永远都不会从 fielddata 中回收数据。这个默认设置是刻意选择的：fielddata 不是临时缓存。...断路器的限制可以在文件 config/elasticsearch.yml 中指定，可以动态更新一个正在运行的集群： PUT /_cluster/settings { "persistent...当新建一个分段时，Elasticsearch 将会执行注册在预热器中的查询。执行这些查询会强制加载缓存，只有在所有预热器执行完，这个分段才会对搜索可见。

1.3K3 1

深入理解计算机系统（2.7）------二进制小数和IEEE浮点标准

整数的表示和运算我们已经讲完了，在实际应用中，整数能够解决我们大部分问题。...在 20世纪80年代以前，每个计算机厂商都设计了自己表示浮点数的规则，以及对浮点数执行运算的细节，这对于应用程序在不同机器上的移植造成了巨大的困难。...十六进制数的基数为 16. 　　　　③、位权：数制中每一固定位置对应的单位值称为位权。...一般来说，现在的编译器都支持两种浮点格式，一种是单精度，一种是双精度。单双精度分别对应于编程语言当中的float和double类型。...在某些应用中表示未初始化的值，也很有用处。这一点在Javascript当中有一个函数isNaN()与这个NaN的含义有点类似，它的作用是用来判断一个参数或者表达式是否是一个数字。

9438 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在Elasticsearch中应用聚合时禁用"lowercase_normalizer“规格化器

相关·内容

用 Python 分析四年NBA比赛数据，实力最强的球队浮出水面

Thinking in SQL系列之：数据挖掘K均值聚类算法与城市分级

ELK弹性堆栈的心脏--Elasticsearch

R语言的kmeans客户细分模型聚类

R语言之kmeans聚类理论篇！

微服务架构介绍与分类「建议收藏」

让Elasticsearch飞起来!——性能优化实践干货

NeurIPS 2021 | 微观特征混合进行宏观时间序列预测

【干货】Elasticsearch性能调优权威指南（13）

Spring认证中国教育管理中心-Spring Data Elasticsearch教程二

面试之Solr&Elasticsearch

Lucene&Solr&ElasticSearch-面试题

【干货】Elasticsearch性能调优权威指南（13）

面试题之 Elasticsearch 性能优化详解

IEEE754标准浮点数表示与舍入

ELK 集群 Kibana 使用 X-Pack 权限控制，监控集群状态，实时的生成，警报，监视,cpu，内存，磁盘空间，等等一系列，报告和的可视化图形

聊聊日志聚类算法及其应用场景

深入理解Elasticsearch的索引映射(mapping)

ES系列八、正排索Doc Values和Field Data

深入理解计算机系统（2.7）------二进制小数和IEEE浮点标准

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐