文章/答案/技术大牛

发布

社区首页 >问答首页 >Solr部分和完整字符串匹配

问Solr部分和完整字符串匹配
EN

Stack Overflow用户

提问于 2011-01-28 12:50:57

回答 4查看 35.5K关注 0票数 25

我正在尝试在Solr中允许对部分字符串进行搜索，因此如果有人搜索"ppopota“，他们将得到与搜索”hippopotamus“相同的结果。我上上下下地阅读了文档，感觉我已经用尽了我的选择。到目前为止，我有以下几点：

定义新的字段类型：

<fieldtype name="testedgengrams" class="solr.TextField">
   <analyzer>
     <tokenizer class="solr.LowerCaseTokenizerFactory"/>
     <filter class="solr.EdgeNGramFilterFactory" minGramSize="2" maxGramSize="15" side="front"/>
  </analyzer>
</fieldtype>

定义“testedgengram”类型的字段：

<field name="text_ngrams" type="testedgengrams" indexed="true" stored="false"/>

将text_ngrams的内容复制到文本中：

<copyField source="text_ngrams" dest="text"/>

可惜，这是行不通的。我遗漏了什么？

lucene

solr

回答 4

Stack Overflow用户

发布于 2011-01-28 13:08:13

您使用的是EdgeNGramFilterFactory，它会生成'hi‘、'hip’、‘hip’等标记，因此它不会与'ppopota‘匹配。请改用NGramFilterFactory。

票数 19

Stack Overflow用户

发布于 2013-09-06 06:48:08

启用部分单词搜索的

您必须编辑本地schema.xml文件(通常位于solr/config下)以添加以下内容之一：

NGramFilterFactory
EdgeNGramFilterFactory

我的是这样的：sample solr schema.xml

下面是要粘贴的代码行：

<filter class="solr.EdgeNGramFilterFactory" minGramSize="2" maxGramSize="15" side="front"/>

EdgeNGram

我选择了EdgeN选项。它不允许在单词的中间搜索，但它允许从单词的开头开始进行部分单词搜索。这减少了你不想要的误报/匹配，性能更好，用户通常不会错过。另外，我喜欢minGramSize=2，所以您必须输入至少2个字符。有些人将其设置为3。

一旦您的本地设置并正常工作，您必须编辑websolr使用的schema.xml，否则您将获得需要输入全文的默认行为，即使您为您的模型配置了全文搜索。

让它更上一层楼

5 ways to speed up indexing

编辑websolr schema.xml的特殊说明(如果您使用的是Heroku

转到您的应用程序的Heroku online仪表板
转到资源选项卡，然后单击Websolr add- on
单击Indexes
Click下的默认链接高级配置链接
Paste in your schema.xml from your local，包括您选择的Ngram标记器的配置(如上所述)。保存。
复制“配置你的Heroku应用程序”框中的链接，然后将其粘贴到终端中，以便在你的heroku配置中设置你的WEBSOLR_URL链接。
单击索引状态链接以获取漂亮的统计信息，并查看您是在运行fast还是slow.
Reindex everything

heroku运行rake太阳黑子:reindex5000

不要使用heroku运行rake太阳黑子:solr:reindex-它已被弃用，不接受任何参数，并且slower
Default批处理大小为50，大多数人建议使用1000，但我已经看到通过将其提升到

，其结果(每秒1000行，而不是大约500 rps)要快得多

票数 12

Stack Overflow用户

发布于 2011-11-24 02:07:46

好的，我正在对字段名做同样的事情

name_de

我设法使用copyField让它工作起来，如下所示：

schema.xml

<schema name="solr-magento" version="1.2">
    <types>
       ...
        <fieldType name="type_name_de_partial" class="solr.TextField">
            <analyzer type="index">
                <tokenizer class="solr.WhitespaceTokenizerFactory"/>
                <filter class="solr.NGramFilterFactory" minGramSize="3" maxGramSize="1000" side="front" />
                <filter class="solr.NGramFilterFactory" minGramSize="3" maxGramSize="1000" side="back" />
                <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/>
                <filter class="solr.LowerCaseFilterFactory"/>
                <filter class="solr.TrimFilterFactory" />
                <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
                <filter class="solr.SnowballPorterFilterFactory" language="German" protected="protwords_de.txt"/>
            </analyzer>
            <analyzer type="query">
                <tokenizer class="solr.StandardTokenizerFactory"/>
                <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/>
                <filter class="solr.LowerCaseFilterFactory"/>
                <filter class="solr.TrimFilterFactory" />
                <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
                <filter class="solr.SnowballPorterFilterFactory" language="German" protected="protwords_de.txt"/>
            </analyzer>
        </fieldType>
    </types>

    ...

    <fields>
        ...
        <field name="name_de_partial" type="type_name_de_partial" indexed="true" stored="true"/>
    </fields>

    ....

    <copyField source="name_de" dest="name_de_partial" />
</schema>

然后在solrconfig.xml中创建搜索条件

<requestHandler name="magento_de" class="solr.SearchHandler">
    <lst name="defaults">
        <str name="defType">dismax</str>
        <str name="echoParams">explicit</str>
        <str name="tie">0.01</str>                                          <!-- Tie breaker -->
        <str name="qf">name_de_partial^1.0 name_de^3.0</str>                <!-- Phrase Fields -->
        <str name="pf">name_de_partial^1.0 name_de^3.0</str>                <!-- Phrase Fields -->
        <str name="mm">3&lt;90%</str>                                       <!-- Minimum 'Should' Match [id 1..3 must much all, else 90proc] -->
        <int name="ps">100</int>                                            <!-- Phrase Slop -->
        <str name="q.alt">*:*</str>
        ..
    </lst>
    <arr name="last-components">
        <str>spellcheck</str>
    </arr>
</requestHandler>

solr使用Power1.0在name_de_partial字段中搜索，使用Power3.0在name_de字段中搜索

因此，如果引擎在name_de中找到特定的查询词，那么它将被放在列表的顶部。如果他还在name_de_partial中找到了一些东西，那么它也会被计算并放入结果中。

字段name_de_partial使用特定的solr过滤器，因此它可以使用查询"hip“或"ppie”或"ippi“找到单词"hippie”，而不使用swet。

票数 10

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/4824954

复制

相似问题

问Solr部分和完整字符串匹配
EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Solr部分和完整字符串匹配EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Solr部分和完整字符串匹配
EN