我们正在从搜索项字符串中构建一个布尔查询来搜索Lucene索引。我希望使用Standard Analyzer对这些字符串进行分析,这是我们用于索引的分析器。例如,foo-bar 1-2-3
应该被分解为foo
,bar
,1-2-3
,因为Lucene文档指出连字符导致数字保持在一起,但单词被标记化。做这件事最好的方法是什么?
目前,我正在通过QueryParser运行我的搜索词字符串。
QueryParser parser = new QueryParser("", new StandardAnalyzer());
Query query = parser.parse(aSearchTermString);
这样做的问题是插入了引号。例如,foo-bar 1-2-3
变成了"foo bar"
,1-2-3
,它不会返回任何东西,因为foo-bar 1-2-3
会将foo-bar
标记为foo
和bar
。
我绝对不想通过删除replace
的引号来解决这种情况,因为我觉得我可能遗漏了什么或做错了什么。
发布于 2013-01-23 06:24:00
实际上,我为StandardAnalyzer
得到了不同的结果。考虑下面的代码(使用Lucene v4):
public class Tokens {
private static void printTokens(String string, Analyzer analyzer) throws IOException {
System.out.println("Using " + analyzer.getClass().getName());
TokenStream ts = analyzer.tokenStream("default", new StringReader(string));
OffsetAttribute offsetAttribute = ts.addAttribute(OffsetAttribute.class);
CharTermAttribute charTermAttribute = ts.addAttribute(CharTermAttribute.class);
while(ts.incrementToken()) {
int startOffset = offsetAttribute.startOffset();
int endOffset = offsetAttribute.endOffset();
String term = charTermAttribute.toString();
System.out.println(term + " (" + startOffset + " " + endOffset + ")");
}
System.out.println();
}
public static void main(String[] args) throws IOException {
printTokens("foo-bar 1-2-3", new StandardAnalyzer(Version.LUCENE_40));
printTokens("foo-bar 1-2-3", new ClassicAnalyzer(Version.LUCENE_40));
QueryParser standardQP = new QueryParser(Version.LUCENE_40, "", new StandardAnalyzer(Version.LUCENE_40));
BooleanQuery q1 = (BooleanQuery) standardQP.parse("someField:(foo\\-bar\\ 1\\-2\\-3)");
System.out.println(q1.toString() + " # of clauses:" + q1.getClauses().length);
}
}
上面的照片:
Using org.apache.lucene.analysis.standard.StandardAnalyzer
foo (0 3)
bar (4 7)
1 (8 9)
2 (10 11)
3 (12 13)
Using org.apache.lucene.analysis.standard.ClassicAnalyzer
foo (0 3)
bar (4 7)
1-2-3 (8 13)
someField:foo someField:bar someField:1 someField:2 someField:3 # of clauses:5
因此,上面的代码证明了与ClassicAnalyzer
不同的是,StandardAnalyzer
应该将1-2-3
拆分成不同的令牌--完全按照您的需要。对于查询,你需要转义每个关键字,包括空格,否则QP会认为这有不同的含义。
如果不想转义查询字符串,可以始终手动对其进行标记化(就像上面的printTokens
方法一样),然后用TermQuery
包装每个标记,并将所有TermQueries堆叠到一个BooleanQuery
中。
https://stackoverflow.com/questions/14464638
复制相似问题