文章/答案/技术大牛

发布

社区首页 >问答首页 >R停止字不移除停止字。

问R停止字不移除停止字。
EN

Stack Overflow用户

提问于 2013-02-07 17:42:16

回答 1查看 19.5K关注 0票数 2

我正在使用R包，发现几乎所有删除文本元素的tm_map函数都不适合我。

例如，我所说的“工作”，是指我要跑：

d <- tm_map(d, removeWords, stopwords('english'))

但当我跑

ddtm <- DocumentTermMatrix(d, control = list(
    weighting = weightTfIdf,
    minWordLength = 2))
findFreqTerms(ddtm, 10)

我还是明白：

[1] the     this

...etc.，还有其他一些死胡同。

我看不出有什么地方出了问题。有人知道这是什么吗，以及如何正确地清除塞子，或者诊断我出了什么问题？

更新

前面有一个错误，我没有注意到：

Refreshing GOE props...
---Registering Weka Editors---
Trying to add database driver (JDBC): RmiJdbc.RJDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): jdbc.idbDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): org.gjt.mm.mysql.Driver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): com.mckoi.JDBCDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): org.hsqldb.jdbcDriver - Warning, not in CLASSPATH?
[KnowledgeFlow] Loading properties and plugins...
[KnowledgeFlow] Initializing KF...

是Weka移除tm中的停止词，对吗？所以这可能是我的问题？

更新2

从this来看，这个错误似乎是无关的。这是关于分贝的，而不是停下来的。

stop-words

nlp

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-02-07 18:57:46

不管怎么说，它起作用了。我做了以下最起码的例子：

data("crude")
crude[[1]]
j <- Corpus(VectorSource(crude[[1]]))
jj <- tm_map(j, removeWords, stopwords('english'))
jj[[1]]

我在系列中使用了几个tm_map表达式。原来，我删除空格、标点符号等的命令又把新的句号连起来了。

票数 6

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/14757489

复制

相似问题

问R停止字不移除停止字。
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问R停止字不移除停止字。EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问R停止字不移除停止字。
EN