首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >为什么词干工很难用一些不固定的词

为什么词干工很难用一些不固定的词
EN

Stack Overflow用户
提问于 2013-08-21 17:22:25
回答 1查看 275关注 0票数 1

这个问题可能与哲学有关,而不是与编码有关。nltk提供了一个标记包,它用一个标签标记句子中的每个单词,并提供一个词干包,它将一个单词转换成它的基本形式。我注意到词干器常常无法将一些不固定的单词转换成它的基本形式。例如,"It's“to "It is",”知情者“,”get“to "get",以此类推。这有点令人惊讶,因为标签者可以正确地将“s”标记为其正确形式的动词("VBZ"),并能识别“已知”("VBD")和“知道”("VB")之间的区别。既然我们已经知道“明知”是过去时态中的动词,那么词干机为什么很难正确返回其基本形式?似乎最好的词干器是雪球柄器,尽管它的性能并不令人满意。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-08-23 10:48:59

我注意到词干器常常无法将一些不固定的单词转换成它的基本形式。

词干分析器是用来做的:“词干通常是指一种粗略的启发式过程,为了大多数时间都能正确地实现这一目标,它会把单词的结尾切掉,并且常常包括删除派生词缀。词干化通常是指使用词汇和词形分析来正确地做事情,通常只是为了删除屈折的结尾,并返回单词的基或字典形式,这就是所谓的引理。”(来源)。

如果你想要一个语言上合适的基本形式,用一个狐猴代替。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/18363895

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档