首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >lucene索引匹配

lucene索引匹配
EN

Stack Overflow用户
提问于 2012-06-22 04:41:30
回答 2查看 156关注 0票数 0

我正在尝试使用Lucene进行去重或去重匹配。从本质上讲,我有一个包含记录的文件,我希望根据某些字段对这些记录进行分组(模糊搜索),然后返回一个具有匹配关键字的结果,该关键字告诉我该文件中的哪些记录相互匹配。

这个是可能的吗?

EN

回答 2

Stack Overflow用户

发布于 2012-06-22 23:24:29

这是可以做到的(如果我理解正确的话)。您将索引将在一次遍历中搜索/记录的术语。在第二遍中,您将搜索每个术语并记录结果。

票数 0
EN

Stack Overflow用户

发布于 2012-06-27 05:40:24

在对文档进行预处理时,您可以生成聚合这些字段的散列,并将其存储(作为NOT_ANALYZED),这样,您只需按一个已知大小的字段进行搜索,看看MessageDigest。这是我通常对文件内容的重复检测所做的工作(因为对于单个查询来说,内容可能太大了)。

如果您要创建更复杂的查询,请尝试使用CachingWrapperFilter,这样后续对重复数据删除算法的调用将会更快。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/11146398

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档