我正在尝试使用Lucene进行去重或去重匹配。从本质上讲,我有一个包含记录的文件,我希望根据某些字段对这些记录进行分组(模糊搜索),然后返回一个具有匹配关键字的结果,该关键字告诉我该文件中的哪些记录相互匹配。
这个是可能的吗?
发布于 2012-06-22 23:24:29
这是可以做到的(如果我理解正确的话)。您将索引将在一次遍历中搜索/记录的术语。在第二遍中,您将搜索每个术语并记录结果。
发布于 2012-06-27 05:40:24
在对文档进行预处理时,您可以生成聚合这些字段的散列,并将其存储(作为NOT_ANALYZED
),这样,您只需按一个已知大小的字段进行搜索,看看MessageDigest。这是我通常对文件内容的重复检测所做的工作(因为对于单个查询来说,内容可能太大了)。
如果您要创建更复杂的查询,请尝试使用CachingWrapperFilter,这样后续对重复数据删除算法的调用将会更快。
https://stackoverflow.com/questions/11146398
复制相似问题