问lucene索引匹配
EN

Stack Overflow用户

提问于 2012-06-22 04:41:30

回答 2查看 156关注 0票数 0

我正在尝试使用Lucene进行去重或去重匹配。从本质上讲，我有一个包含记录的文件，我希望根据某些字段对这些记录进行分组(模糊搜索)，然后返回一个具有匹配关键字的结果，该关键字告诉我该文件中的哪些记录相互匹配。

这个是可能的吗？

发布于 2012-06-22 23:24:29

这是可以做到的(如果我理解正确的话)。您将索引将在一次遍历中搜索/记录的术语。在第二遍中，您将搜索每个术语并记录结果。

票数 0

发布于 2012-06-27 05:40:24

在对文档进行预处理时，您可以生成聚合这些字段的散列，并将其存储(作为NOT_ANALYZED)，这样，您只需按一个已知大小的字段进行搜索，看看MessageDigest。这是我通常对文件内容的重复检测所做的工作(因为对于单个查询来说，内容可能太大了)。

如果您要创建更复杂的查询，请尝试使用CachingWrapperFilter，这样后续对重复数据删除算法的调用将会更快。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/11146398

复制

相似问题

问lucene索引匹配EN