我使用的是Solr6,我的要求是找到其中有5个连续单词(由空格分隔)的重复文档。
因此,为了实现这一点,我计划在5个单词的倒置中索引内容,例如,如果我的内容是“敏捷的棕色狐狸跳过懒狗”,它应该索引为“敏捷的棕色狐狸跳过”,“快速棕色狐狸跳过”,“棕色狐狸跳过”。
为了配置记号赋予器,我引用了这个wiki,但是没有找到任何提供的可以解决这个问题的记号赋予器。因此,我正在寻找一种方法来创建新的记号赋值器类或任何其他方法,使用提供的记号赋值程序可以解决我的问题。如果有人能帮我解决这个问题,那就太好了。
发布于 2017-07-10 16:11:13
您使用Shingle filter就是为了这个目的。它是一个过滤器,而不是一个标记器,但它可以做你需要的事情。
https://stackoverflow.com/questions/45005307
复制相似问题