前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Elasticsearch 深坑复盘:highlight+fvh+copy to+json顺序的复杂使用场景问题

Elasticsearch 深坑复盘:highlight+fvh+copy to+json顺序的复杂使用场景问题

作者头像
铭毅天下
发布2023-08-18 21:05:40
1950
发布2023-08-18 21:05:40
举报
文章被收录于专栏:铭毅天下铭毅天下

1、背景情况

业务使用的索引进行了一个切换,从老索引(老集群)切换到了新索引(新集群),更改了主分片数目,其他条件未修改。切换当天研发与测试人员都测试通过。

2、问题描述

索引切换的第二天,研发同学反馈查询使用报错:

经过初步调试,发现报错的内容是在 highlight 模块的 fvh 类型使用,这个操作主要查询了字段 a-name。

这里补充一下 highlight 的使用类型知识。

highlight 的高亮处理有三种 unified/plain/fvh,在大文本下比较合适的是 fvh

fvh Highlighter 会直接利用 index 的时候创建的 term vector 来得到高亮片段匹配的查询分词,这里就需要一个 mapping 的配置 "term_vector" : "with_positions_offsets"。

具体的 highlight type 属性可以参照官方文档

https://www.elastic.co/guide/en/elasticsearch/reference/current/highlighting.html)

同时,发现了 github 上这个报错的源码注释:

https://github.com/apache/lucene/blob/d5d6dc079395c47cd6d12dcce3bcfdd2c7d9dc63/lucene/highlighter/src/java/org/apache/lucene/search/vectorhighlight/FastVectorHighlighter.java

可以肯定的是 term vector 的计算导致了这个报错。

还好老索引还在,term vector 也可以使用 api 去查看存储的信息内容。

代码语言:javascript
复制
GET 索引名/_termvectors/id?fields=字段名 

新索引中的搜索关键字如下所示:

旧索引中的搜索关键字如下所示:

可以明显看到在新老索引里,存的position offset两个信息是完全不一样的

而尝试通过 termvector 去实时(on the fly https://www.elastic.co/guide/en/elasticsearch/reference/current/docs-termvectors.html#docs-termvectors-api-generate-termvectors)计算,还是得到的同样的两个结果。

现在的问题:相同的文档信息出现了不同的 term vector 结果

3、排查方向

和研发同学沟通讨论后,主要进行了两方面的排查:

  • 1.在新老集群上进行索引配置的复制,首先排除集群环境的问题。
  • 2.索引有不少自定义的分词器和复杂的参数使用,对索引配置进行进一步分析。

新建测试索引后,我们发现老集群上的测试索引也有这样的错误。且测试索引的 termvector 信息与新索引信息一致。

因此可以排除集群环境的问题。

同时研发同学注意到,termvector 信息中出现了本身文档外的信息:

代码语言:javascript
复制
“text”:["某某科技公司"]
“term_vectors":["mou","ke","ji","gong","si","某","科技","公司"]

而多余的 term vector 信息则来自于另一个存储拼音的字段 b-name,该字段同时设置了 copy to 属性,把内容复制给了问题字段 a-name

这时,研发同学发现了问题:在新旧索引切换的过程中,客户端也进行了更换。之前是 nodejs JSON上传,nodejs的json是有序的,而切换后的客户端使用的是 golang,golang里面的jsoniter不会有序,排列随机。

因此不同排序的 json 字段在 copy to 的复杂使用下,产生了不同的 term vector。对此进行了测试索引的故障复现。测试数据如下:

代码语言:javascript
复制
{
"b-name" : "mou mou ke ji gong si",
"a-name" : "某某科技公司",
}

b-name 在 a-name 之前,term vector 如下:

字段进行调换后:

4、结论与复盘

实际过程中,我们排查的脑图如下:

图片建议放大查看

针对这个复杂的使用场景也是踩了不少坑。真的是魔鬼隐藏在细节里,json 字段顺序的问题也会导致这样晦涩难找的 bug

同时也遗留了个小问题:term vector 的 api (on the fly)并不能复现这个场景的问题,是因为计算的是已写入lucene文件的数据,还是模拟的数据写入?那是不是功能的bug,还是理解有差?

5、作者介绍

金多安,Elastic 认证工程师,Elastic资深运维工程师,死磕Elasticsearch知识星球嘉宾,星球Top活跃技术专家,Elastic中文社区日报责任编辑

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-03-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 铭毅天下Elasticsearch 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1、背景情况
  • 2、问题描述
  • 3、排查方向
  • 4、结论与复盘
  • 5、作者介绍
相关产品与服务
Elasticsearch Service
腾讯云 Elasticsearch Service(ES)是云端全托管海量数据检索分析服务,拥有高性能自研内核,集成X-Pack。ES 支持通过自治索引、存算分离、集群巡检等特性轻松管理集群,也支持免运维、自动弹性、按需使用的 Serverless 模式。使用 ES 您可以高效构建信息检索、日志分析、运维监控等服务,它独特的向量检索还可助您构建基于语义、图像的AI深度应用。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档