腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
最好
的
“交钥匙”
词干
提取算法是什么?
、
我需要一个好
的
词干
算法
为
我正在工作
的
项目。有人建议我看看Porter Stemmer。当我查看Porter
词干
分析器
的
页面时,我发现它现在已被弃用,取而代之
的
是"Snowball“
词干
分析器
。我需要一个好
的
词干
分析器
,但我不能真的花大量
的
时间来实现(或优化)我
自己
的
词干
分析器
浏览 2
提问于2008-10-22
得票数 7
回答已采纳
1
回答
Elasticsearch
的
自定义语言Stemmer
、
、
有没有办法创建新
的
词干
分析器
?例如,捷克语
分析器
已经内置了捷克语
词干
分析器
。这个算法是由荷兰
的
一些人做
的
。这并不是那么糟糕,但对于以英语
为
母语的人来说,很明显那些可敬
的
家伙不会说这种语言。如果我想创建
自己
的
词干
搜索算法,如何在Elasticsearch中实现? 谢谢。
浏览 2
提问于2014-11-28
得票数 2
1
回答
为
词干
分析
编写
自己
的
词干
分析器
、
、
、
、
我有一个包含27个文件
的
数据集,每个文件都包含操作码。我想使用
词干
分析
将相似操作码
的
所有版本映射到相同
的
操作码。例如: push,pusha,push,等等都会映射到push。我
的
字典包含27个键,每个键都有一个操作码列表作为值。因为值包含操作码,而不是普通
的
英语单词,所以我不能使用常规
词干
分析器
模块。我需要
编写
自己
的
词干
分析器
代码。此外,我不能
浏览 13
提问于2019-02-27
得票数 1
1
回答
是否有针对匈牙利语
的
第三方SQL Server断字程序?
、
、
、
我想在全文索引上使用CONTAINS,在匈牙利数据上使用FORMSOF(...)。有可能吗?我知道SQL Server默认情况下不支持它。
浏览 1
提问于2011-08-19
得票数 2
回答已采纳
4
回答
词干
-代码示例还是开源项目?
、
、
、
词干
是标记系统中需要
的
东西。我使用don,而且我没有时间管理和修剪我
的
标签。我对我
的
博客比较谨慎,但它并不完美。我
为
嵌入式系统
编写
的
软件如果包含
词干
分析
,功能会更强大(对用户很有帮助)。例如:解析器无论我将它们放入哪个系统,都应该意味着相同
的
事情。 理想情况下,某个地方有BSD许可
的
词干
分析器
,但如果没有,我从哪里可以学习到通用
的
浏览 3
提问于2009-02-27
得票数 6
回答已采纳
1
回答
在ElasticSearch中什么时候使用
词干
分析器
?
我对ElasticSearch中何时使用
词干
分析器
感到困惑。在Dealing with Human Language/Reducing Words to Their Root Form部分中,我看到
词干
分析器
用于将单词剥离
为
其词根形式。这使我相信
词干
分析器
被用作
分析器
上
的
令牌过滤器。那么,
词干
分析器
用在哪里呢?
浏览 5
提问于2016-01-26
得票数 1
1
回答
Lucene:
为
法语组合ASCII折叠和
词干
我正在实现一个法语文本
的
Lucene搜索。无论用户是否键入重音,搜索都必须工作,并且还必须支持
词干
提取。我目前在Lucene 3中使用了基于Snowball
的
法语
词干
分析器
。在索引方面,我在
分析器
中添加了一个ASCIIFoldingFilter,它在
词干
分析器
之后运行。 然而,在搜索端,操作是不可逆
的
:
词干
分析器
只有在输入内容包含重音
的
情况下才能工作。例如,它从université
浏览 1
提问于2017-08-11
得票数 1
1
回答
NLTK
词干
分析
不会传递简单
的
情况
、
、
、
、
我是NLTK
的
新手,我正在使用
词干
分析
函数对案例进行
词干
分析
。 我有一个简单
的
例句要处理,那就是:“打开lightin。”我想看看NLTK
词干
分析器
是否能帮我过滤掉拼写错误"lightin“。我用"lighting“测试了
词干
分析器
,snowBall
词干
分析器
可以为我返回正确
的
单词"light”,但是snowBall
词干</e
浏览 4
提问于2017-02-02
得票数 1
1
回答
如何让
词干
分析器
以类似的方式识别标识和标识符?
、
为什么NLTK
的
词干
分析器
识别不同
的
词干
用于标识和标识符?对于标识,Snowball和Porter
词干
分析器
都会返回identif,但对于Identifier,我会返回identifi。有没有其他
词干
分析器
能更好地包含不同形式
的
单词?
浏览 0
提问于2018-06-19
得票数 0
3
回答
Lucene.NET PorterStemFilter源代码示例,它适合我吗?
、
、
首先,我必须说,我们使用
的
Lucene.NET版本不是最新
的
,因为它与Sitecore 6.4.1打包在一起,到目前为止,我们还没有深入研究
分析器
和
词干
分析
的
使用(大错误!)。基本上,我们正在尝试实现某种形式
的
词干
提取,要么是在索引期,要么是在查询期(正在寻找关于哪个是最好
的
建议?)。我们
的
主要问题是,所有关于
词干
分析
的
文档都是用Java语言
编写
浏览 1
提问于2012-06-15
得票数 1
回答已采纳
1
回答
Lucene/ElasticSearch =>如何让“古生物”不返回“古生物学”
的
结果?
、
我在标准
分析器
中使用ElasticSearch和Lucene。当查询是"Paleo“时,我想让我
的
索引不返回”古生物学“
的
结果。然而,我确实希望它返回与“旧石器”相关
的
“旧石器”
的
结果。换句话说,我希望
分析器
更智能,过滤掉与关键字无关
的
词干
,同时保留与关键字相关
的
词干
。我有哪些可用
的
解决方案?
浏览 3
提问于2013-07-16
得票数 0
5
回答
我想要一个Java阿拉伯语
词干
分析器
、
、
、
我正在找一个阿拉伯语
的
Java
词干
分析器
。我找到了一个名为"AraMorph“
的
库,但它
的
输出是不可控
的
,并且它对不需要
的
单词进行构造。 有没有其他
的
阿拉伯语
词干
分析器
?
浏览 0
提问于2011-07-12
得票数 9
1
回答
使用启用了
词干
分析
的
Lucene进行搜索
、
、
、
假设我存储了一组字符串( Lucene中
的
每个文档都是一个单词),然后给定一个输入单词W,我希望检索不仅匹配word W
的
所有文档,还检索
词干
版本也匹配W
的
文档。另外,假设输入
的
是单词W,我希望处理这样
的
情况:也有一个文档与单词W
的
词干
版本相匹配。
编写
自己
的
自定义
分析器
并返回PorterStemFilter就足够了吗?我是否只需要
编写
这个类,并在代码中引用它作为
浏览 2
提问于2013-03-18
得票数 1
回答已采纳
1
回答
补偿solr中
的
侵略性
词干
、
在
词干
提取
的
上下文中,补偿假阴性将意味着将字符串"child“添加到查找单词”child“
的
查询中,因为不规则复数
的
词干
与单数形式
的
词干
不匹配。在这种情况下,我们仍然希望使用
词干
分析器
,以便给出“result”作为结果,但我们仍然希望阻止"create“
的
任何实例。 我最初
的
解决方案是创建两个文本字段,一个有
词干
分析器
,另一个没有
词干<
浏览 2
提问于2016-02-22
得票数 2
1
回答
波兰搜索狮身人面像?
、
、
、
、
我想为一个用Django
编写
的
网站实现一个搜索解决方案。从可用
的
选项(我已经研究过Solr、Sphinx、Xapian、PostgreSQL/Tsearch3、MySQL)中,Sphinx看起来是最好
的
。然而,它不支持波兰语
的
词干
,这是我想要使其可搜索
的
数据语言。 在Sphinx中处理不支持
的
语言
的
最佳方法是什么?我有一种直觉,我可以从拼写字典中创建一个
词干
语料库。我怎样才能在Sphinx上工作呢?
浏览 0
提问于2011-02-04
得票数 5
1
回答
在TERRIER信息检索系统中如何使用YASS或GRAS等统计
词干
代替Porter
词干
我们如何在Terrier中使用统计
词干
分析器
输出?我已经使用统计
词干
分析器
生成了
词干
列表,并希望将其嵌入到TERRIER IR中。
浏览 0
提问于2015-09-15
得票数 1
2
回答
Solr -通配符搜索因
词干
处理方法而异
、
、
我有两个版本
的
solr在我
的
机器上工作。比如SolrVer1和SolrVer2<filter class="solr.KeywordMarkerFilterFactoryfilter class="solr.PorterStemFilterFactory" ignoreCase="true"/> SolrVer2已经在字段类型text_en_splitting上
浏览 1
提问于2012-08-23
得票数 0
回答已采纳
1
回答
Thinking/Sphinx:每列不同
的
词干
、
、
、
、
例如,我有一个包含以下列
的
表:french_description在使用ThinkingSphinx时,我可以像这样指定在config/sphinx.yml中使用什么
词干
分析器
: morphology: stem_en 但这将通过english
词干
分析器
运行所有列。有没有办法
为
每一列指定
词干
分析器
?或任何其他方式来完成同样
浏览 0
提问于2011-11-03
得票数 1
回答已采纳
1
回答
查找印尼语
词干
分析器
、
、
目前我使用
的
是lucene印尼
词干
分析器
。org.apache.lucene.analysis.id.IndonesianAnalyzer;有人能给我推荐不同
的
词干
吗?
浏览 4
提问于2013-07-30
得票数 0
2
回答
NLTK和Lucene之间
词干
聚合体
的
兼容性
、
、
、
、
我在Java中使用Lucene
为
语料库建立索引,并从中提取
词干
列表。我使用
的
是EnglishAnalyzer。然后,我把词表交给Python,让它用NLTK做一些事情。NLTK中是否有一个
词干
分析器
与Lucene
的
EnglishAnalyzer使用
的
词干
分析器
完全兼容? 我知道我也可以使用PyLucene来规避这一点,但我希望最小化依赖项。
浏览 0
提问于2012-07-06
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
用Python编写的一个简单离线数据包分析器
【行业资讯】Apache Lucene 9.0 发布,Java 全文检索引擎架构
神级程序员花了三个礼拜来整理的资料!带来Python NLP入门教程!
Python NLP入门教程
Python自然语言处理:使用SpaCycle库进行标记化、词干提取和词形还原
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券