我正在使用R包,发现几乎所有删除文本元素的tm_map函数都不适合我。
例如,我所说的“工作”,是指我要跑:
d <- tm_map(d, removeWords, stopwords('english'))但当我跑
ddtm <- DocumentTermMatrix(d, control = list(
weighting = weightTfIdf,
minWordLength = 2))
findFreqTerms(ddtm, 10)我还是明白:
[1] the this...etc.,还有其他一些死胡同。
我看不出有什么地方出了问题。有人知道这是什么吗,以及如何正确地清除塞子,或者诊断我出了什么问题?
更新
前面有一个错误,我没有注意到:
Refreshing GOE props...
---Registering Weka Editors---
Trying to add database driver (JDBC): RmiJdbc.RJDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): jdbc.idbDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): org.gjt.mm.mysql.Driver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): com.mckoi.JDBCDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): org.hsqldb.jdbcDriver - Warning, not in CLASSPATH?
[KnowledgeFlow] Loading properties and plugins...
[KnowledgeFlow] Initializing KF...是Weka移除tm中的停止词,对吗?所以这可能是我的问题?
更新2
从this来看,这个错误似乎是无关的。这是关于分贝的,而不是停下来的。
发布于 2013-02-07 18:57:46
不管怎么说,它起作用了。我做了以下最起码的例子:
data("crude")
crude[[1]]
j <- Corpus(VectorSource(crude[[1]]))
jj <- tm_map(j, removeWords, stopwords('english'))
jj[[1]]我在系列中使用了几个tm_map表达式。原来,我删除空格、标点符号等的命令又把新的句号连起来了。
https://stackoverflow.com/questions/14757489
复制相似问题