这个问题可能与哲学有关,而不是与编码有关。nltk提供了一个标记包,它用一个标签标记句子中的每个单词,并提供一个词干包,它将一个单词转换成它的基本形式。我注意到词干器常常无法将一些不固定的单词转换成它的基本形式。例如,"It's“to "It is",”知情者“,”get“to "get",以此类推。这有点令人惊讶,因为标签者可以正确地将“s”标记为其正确形式的动词("VBZ"),并能识别“已知”("VBD")和“知道”("VB")之间的区别。既然我们已经知道“明知”是过去时态中的动词,那么词干机为什么很难正确返回其基本形式?似乎最好的词干器是雪球柄器,尽管它的性能并不令人满意。
发布于 2013-08-23 02:48:59
我注意到词干器常常无法将一些不固定的单词转换成它的基本形式。
词干分析器是用来做的:“词干通常是指一种粗略的启发式过程,为了大多数时间都能正确地实现这一目标,它会把单词的结尾切掉,并且常常包括删除派生词缀。词干化通常是指使用词汇和词形分析来正确地做事情,通常只是为了删除屈折的结尾,并返回单词的基或字典形式,这就是所谓的引理。”(来源)。
如果你想要一个语言上合适的基本形式,用一个狐猴代替。
https://stackoverflow.com/questions/18363895
复制相似问题