文章/答案/技术大牛

发布

社区首页 >问答首页 >stemCompletion()函数在使用语料库作为字典时输出错误

问stemCompletion()函数在使用语料库作为字典时输出错误
EN

Stack Overflow用户

提问于 2016-11-07 08:32:28

回答 1查看 148关注 0票数 3

作为词干完成步骤的一个例子，假设我想在c('universidad'，'university'，'university')字典中找到与‘universidad’，‘university’，‘university’字典中最常见的单词“univers”匹配。根据stemCompletion()函数的帮助页：

type =‘大众化’(默认)以最频繁的匹配作为完成。

library(tm) # 0.6.2

如果我将字典作为向量插入：

stemCompletion('univers', dictionary=c('universidad', 'university', 'university'))
     univers 
"university"

我得到了正确的答案。但如果我把字典当成语料库：

my.dictionary <- Corpus(VectorSource(c('universidad', 'university', 'university')))
stemCompletion('univers', dictionary=my.dictionary)
      univers 
"universidad"

我得到了错误的答案！

任何帮助都很感激！

回答 1

Stack Overflow用户

发布于 2016-11-13 00:30:27

在包源tm/src/complete.R中，如果将一个Corpus作为dictionary参数传递给stemComplete，那么该字典将在词干完成分析之前被删除。

您的版本的相关行为8-9：

if (inherits(dictionary, "Corpus"))
    dictionary <- unique(unlist(lapply(dictionary, words)))

为什么没有将相同的逻辑应用于向量字典是包装维护人员的一个问题，但似乎观察到的行为是有意的。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/40460804

复制

相似问题

问stemCompletion()函数在使用语料库作为字典时输出错误
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问stemCompletion()函数在使用语料库作为字典时输出错误EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问stemCompletion()函数在使用语料库作为字典时输出错误
EN