我刚刚开始在Solr上工作。有一个电话字段,它在模式中定义如下
<field docValues="true" indexed="true" multiValued="true" name="phones" stored="true" type="StrField"/>
据我所知,字符串字段将尝试进行精确匹配,但用户可以使用任何格式来搜索带有特殊字符的电话号码,如(111) 111-1111。因此,我使用ClientUtils.escapeQueryChars为特殊字符添加了一个斜杠,但是搜索没有得到任何结果。我一直在尝试理解为什么,是否有任何标准,特殊字符不能转义字符串字段?我不认为标记器很重要,因为它是字符串字段,我使用的是edismax解析器。有什么想法吗?
发布于 2018-06-03 03:35:23
使用Solr 7.3.1,我重现了你的要求,并且可以确认,只要你正确地转义(
、)
和,你就会得到你想要的结果。
架构
文档
{
"id":"doc1",
"phones":["(111) 111-1111"],
"_version_":1602190176246824960
},
{
"id":"doc2",
"phones":["111 111-1111"],
"_version_":1602190397829808128
},
{
"id":"doc3",
"phones":["111 (111)-1111"],
"_version_":1602190400002457600
}
查询
/select?q=phones:\(111\)\ 111-1111
{
"id":"doc1",
"phones":["(111) 111-1111"],
"_version_":1602190176246824960}]
}
/select?debugQuery=on&q=phones:111\ 111-1111
{
"id":"doc2",
"phones":["111 111-1111"],
"_version_":1602190397829808128}]
}
/select?debugQuery=on&q=phones:1111111111
"response":{"numFound":0,"start":0,"docs":[]}
行为与描述完全相同-仅精确匹配。
使用 PatternReplaceCharFilterFactory
获得您想要的行为的
让我们创建一个自定义字段类型,删除除数字或字母以外的所有内容:
curl -X POST -H 'Content-type:application/json' --data-binary '{
"add-field-type" : {
"name":"phoneStripped",
"class":"solr.TextField",
"positionIncrementGap":"100",
"analyzer" : {
"charFilters":[{
"class":"solr.PatternReplaceCharFilterFactory",
"replacement":"",
"pattern":"[^a-zA-Z0-9]"
}],
"tokenizer":{
"class":"solr.KeywordTokenizerFactory"
},
}
}
}' http://localhost:8983/solr/foo/schema
然后,我们使用这个新字段类型创建一个名为phone_stripped
的新字段(您可以在UI中执行此操作),并重新索引我们的文档-现在使用新的字段名称:
{
"id":"doc1",
"phone_stripped":"(111) 111-1111"
},
{
"id":"doc3",
"phone_stripped":"111 (111)-1111"
},
{
"id":"doc2",
"phone_stripped":"111 111-1111"
}
然后我们只搜索1111111111
"response":{"numFound":3,"start":0,"docs":[ .. all our docs ..]
使用前面的搜索,phone_stripped:\(111\)\ 111-1111
"response":{"numFound":3,"start":0,"docs":[ .. all our docs ..]
为了确保我们没有以难以形容的方式破坏东西,让我们搜索phone_stripped:\(111\)\ 111-1112
"response":{"numFound":0,"start":0,"docs":[]
https://stackoverflow.com/questions/50635861
复制相似问题