作为词干完成步骤的一个例子,假设我想在c('universidad','university','university')字典中找到与‘universidad’,‘university’,‘university’字典中最常见的单词“univers”匹配。根据stemCompletion()函数的帮助页:
type =‘大众化’(默认)以最频繁的匹配作为完成。
library(tm) # 0.6.2如果我将字典作为向量插入:
stemCompletion('univers', dictionary=c('universidad', 'university', 'university'))
univers
"university" 我得到了正确的答案。但如果我把字典当成语料库:
my.dictionary <- Corpus(VectorSource(c('universidad', 'university', 'university')))
stemCompletion('univers', dictionary=my.dictionary)
univers
"universidad"我得到了错误的答案!
任何帮助都很感激!
发布于 2016-11-13 00:30:27
在包源tm/src/complete.R中,如果将一个Corpus作为dictionary参数传递给stemComplete,那么该字典将在词干完成分析之前被删除。
您的版本的相关行为8-9:
if (inherits(dictionary, "Corpus"))
dictionary <- unique(unlist(lapply(dictionary, words)))为什么没有将相同的逻辑应用于向量字典是包装维护人员的一个问题,但似乎观察到的行为是有意的。
https://stackoverflow.com/questions/40460804
复制相似问题