为词干分析编写自己的词干分析器

、

我需要一个好的词干算法为我正在工作的项目。有人建议我看看Porter Stemmer。当我查看Porter词干分析器的页面时，我发现它现在已被弃用，取而代之的是"Snowball“词干分析器。我需要一个好的词干分析器，但我不能真的花大量的时间来实现(或优化)我自己的词干分析器

浏览 2提问于2008-10-22得票数 7

回答已采纳

1回答

Elasticsearch的自定义语言Stemmer

、、

有没有办法创建新的词干分析器？例如，捷克语分析器已经内置了捷克语词干分析器。这个算法是由荷兰的一些人做的。这并不是那么糟糕，但对于以英语为母语的人来说，很明显那些可敬的家伙不会说这种语言。如果我想创建自己的词干搜索算法，如何在Elasticsearch中实现？谢谢。

浏览 2提问于2014-11-28得票数 2

1回答

、、、、

我有一个包含27个文件的数据集，每个文件都包含操作码。我想使用词干分析将相似操作码的所有版本映射到相同的操作码。例如: push，pusha，push，等等都会映射到push。我的字典包含27个键，每个键都有一个操作码列表作为值。因为值包含操作码，而不是普通的英语单词，所以我不能使用常规词干分析器模块。我需要编写自己的词干分析器代码。此外，我不能

浏览 13提问于2019-02-27得票数 1

1回答

是否有针对匈牙利语的第三方SQL Server断字程序？

、、、

我想在全文索引上使用CONTAINS，在匈牙利数据上使用FORMSOF(...)。有可能吗？我知道SQL Server默认情况下不支持它。

浏览 1提问于2011-08-19得票数 2

回答已采纳

4回答

词干-代码示例还是开源项目？

、、、

词干是标记系统中需要的东西。我使用don，而且我没有时间管理和修剪我的标签。我对我的博客比较谨慎，但它并不完美。我为嵌入式系统编写的软件如果包含词干分析，功能会更强大(对用户很有帮助)。例如：解析器无论我将它们放入哪个系统，都应该意味着相同的事情。理想情况下，某个地方有BSD许可的词干分析器，但如果没有，我从哪里可以学习到通用的

浏览 3提问于2009-02-27得票数 6

回答已采纳

1回答

在ElasticSearch中什么时候使用词干分析器？

我对ElasticSearch中何时使用词干分析器感到困惑。在Dealing with Human Language/Reducing Words to Their Root Form部分中，我看到词干分析器用于将单词剥离为其词根形式。这使我相信词干分析器被用作分析器上的令牌过滤器。那么，词干分析器用在哪里呢？

浏览 5提问于2016-01-26得票数 1

1回答

Lucene:为法语组合ASCII折叠和词干

我正在实现一个法语文本的Lucene搜索。无论用户是否键入重音，搜索都必须工作，并且还必须支持词干提取。我目前在Lucene 3中使用了基于Snowball的法语词干分析器。在索引方面，我在分析器中添加了一个ASCIIFoldingFilter，它在词干分析器之后运行。然而，在搜索端，操作是不可逆的:词干分析器只有在输入内容包含重音的情况下才能工作。例如，它从université

浏览 1提问于2017-08-11得票数 1

1回答

NLTK词干分析不会传递简单的情况

、、、、

我是NLTK的新手，我正在使用词干分析函数对案例进行词干分析。我有一个简单的例句要处理，那就是：“打开lightin。”我想看看NLTK词干分析器是否能帮我过滤掉拼写错误"lightin“。我用"lighting“测试了词干分析器，snowBall词干分析器可以为我返回正确的单词"light”，但是snowBall词干</e

浏览 4提问于2017-02-02得票数 1

1回答

如何让词干分析器以类似的方式识别标识和标识符？

、

为什么NLTK的词干分析器识别不同的词干用于标识和标识符？对于标识，Snowball和Porter词干分析器都会返回identif，但对于Identifier，我会返回identifi。有没有其他词干分析器能更好地包含不同形式的单词？

浏览 0提问于2018-06-19得票数 0

3回答

Lucene.NET PorterStemFilter源代码示例，它适合我吗？

、、

首先，我必须说，我们使用的Lucene.NET版本不是最新的，因为它与Sitecore 6.4.1打包在一起，到目前为止，我们还没有深入研究分析器和词干分析的使用(大错误！)。基本上，我们正在尝试实现某种形式的词干提取，要么是在索引期，要么是在查询期(正在寻找关于哪个是最好的建议？)。我们的主要问题是，所有关于词干分析的文档都是用Java语言编写

浏览 1提问于2012-06-15得票数 1

回答已采纳

1回答

Lucene/ElasticSearch =>如何让“古生物”不返回“古生物学”的结果？

、

我在标准分析器中使用ElasticSearch和Lucene。当查询是"Paleo“时，我想让我的索引不返回”古生物学“的结果。然而，我确实希望它返回与“旧石器”相关的“旧石器”的结果。换句话说，我希望分析器更智能，过滤掉与关键字无关的词干，同时保留与关键字相关的词干。我有哪些可用的解决方案？

浏览 3提问于2013-07-16得票数 0

5回答

我想要一个Java阿拉伯语词干分析器

、、、

我正在找一个阿拉伯语的Java词干分析器。我找到了一个名为"AraMorph“的库，但它的输出是不可控的，并且它对不需要的单词进行构造。有没有其他的阿拉伯语词干分析器？

浏览 0提问于2011-07-12得票数 9

1回答

使用启用了词干分析的Lucene进行搜索

、、、

假设我存储了一组字符串( Lucene中的每个文档都是一个单词)，然后给定一个输入单词W，我希望检索不仅匹配word W的所有文档，还检索词干版本也匹配W的文档。另外，假设输入的是单词W，我希望处理这样的情况:也有一个文档与单词W的词干版本相匹配。编写自己的自定义分析器并返回PorterStemFilter就足够了吗？我是否只需要编写这个类，并在代码中引用它作为

浏览 2提问于2013-03-18得票数 1

回答已采纳

1回答

补偿solr中的侵略性词干

、

在词干提取的上下文中，补偿假阴性将意味着将字符串"child“添加到查找单词”child“的查询中，因为不规则复数的词干与单数形式的词干不匹配。在这种情况下，我们仍然希望使用词干分析器，以便给出“result”作为结果，但我们仍然希望阻止"create“的任何实例。我最初的解决方案是创建两个文本字段，一个有词干分析器，另一个没有词干<

浏览 2提问于2016-02-22得票数 2

1回答

我想为一个用Django编写的网站实现一个搜索解决方案。从可用的选项(我已经研究过Solr、Sphinx、Xapian、PostgreSQL/Tsearch3、MySQL)中，Sphinx看起来是最好的。然而，它不支持波兰语的词干，这是我想要使其可搜索的数据语言。在Sphinx中处理不支持的语言的最佳方法是什么？我有一种直觉，我可以从拼写字典中创建一个词干语料库。我怎样才能在Sphinx上工作呢？

浏览 0提问于2011-02-04得票数 5

1回答

在TERRIER信息检索系统中如何使用YASS或GRAS等统计词干代替Porter词干

我们如何在Terrier中使用统计词干分析器输出？我已经使用统计词干分析器生成了词干列表，并希望将其嵌入到TERRIER IR中。

浏览 0提问于2015-09-15得票数 1

2回答

Solr -通配符搜索因词干处理方法而异

、、

我有两个版本的solr在我的机器上工作。比如SolrVer1和SolrVer2<filter class="solr.KeywordMarkerFilterFactoryfilter class="solr.PorterStemFilterFactory" ignoreCase="true"/> SolrVer2已经在字段类型text_en_splitting上

浏览 1提问于2012-08-23得票数 0

回答已采纳

1回答

Thinking/Sphinx:每列不同的词干

、、、、

例如，我有一个包含以下列的表：french_description在使用ThinkingSphinx时，我可以像这样指定在config/sphinx.yml中使用什么词干分析器： morphology: stem_en 但这将通过english词干分析器运行所有列。有没有办法为每一列指定词干分析器？或任何其他方式来完成同样

浏览 0提问于2011-11-03得票数 1

回答已采纳

1回答

查找印尼语词干分析器

、、

目前我使用的是lucene印尼词干分析器。org.apache.lucene.analysis.id.IndonesianAnalyzer；有人能给我推荐不同的词干吗？

浏览 4提问于2013-07-30得票数 0

2回答

NLTK和Lucene之间词干聚合体的兼容性

、、、、

我在Java中使用Lucene为语料库建立索引，并从中提取词干列表。我使用的是EnglishAnalyzer。然后，我把词表交给Python，让它用NLTK做一些事情。NLTK中是否有一个词干分析器与Lucene的EnglishAnalyzer使用的词干分析器完全兼容？我知道我也可以使用PyLucene来规避这一点，但我希望最小化依赖项。

浏览 0提问于2012-07-06得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

最好的“交钥匙”词干提取算法是什么？

Elasticsearch的自定义语言Stemmer