首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >R停止字不移除停止字。

R停止字不移除停止字。
EN

Stack Overflow用户
提问于 2013-02-07 17:42:16
回答 1查看 19.5K关注 0票数 2

我正在使用R包,发现几乎所有删除文本元素的tm_map函数都不适合我。

例如,我所说的“工作”,是指我要跑:

代码语言:javascript
复制
d <- tm_map(d, removeWords, stopwords('english'))

但当我跑

代码语言:javascript
复制
ddtm <- DocumentTermMatrix(d, control = list(
    weighting = weightTfIdf,
    minWordLength = 2))
findFreqTerms(ddtm, 10)

我还是明白:

代码语言:javascript
复制
[1] the     this

...etc.,还有其他一些死胡同。

我看不出有什么地方出了问题。有人知道这是什么吗,以及如何正确地清除塞子,或者诊断我出了什么问题?

更新

前面有一个错误,我没有注意到:

代码语言:javascript
复制
Refreshing GOE props...
---Registering Weka Editors---
Trying to add database driver (JDBC): RmiJdbc.RJDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): jdbc.idbDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): org.gjt.mm.mysql.Driver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): com.mckoi.JDBCDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): org.hsqldb.jdbcDriver - Warning, not in CLASSPATH?
[KnowledgeFlow] Loading properties and plugins...
[KnowledgeFlow] Initializing KF...

是Weka移除tm中的停止词,对吗?所以这可能是我的问题?

更新2

this来看,这个错误似乎是无关的。这是关于分贝的,而不是停下来的。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-02-07 18:57:46

不管怎么说,它起作用了。我做了以下最起码的例子:

代码语言:javascript
复制
data("crude")
crude[[1]]
j <- Corpus(VectorSource(crude[[1]]))
jj <- tm_map(j, removeWords, stopwords('english'))
jj[[1]]

我在系列中使用了几个tm_map表达式。原来,我删除空格、标点符号等的命令又把新的句号连起来了。

票数 6
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/14757489

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档