我正在使用Java来构建一个分类模型。我可以用内置字过滤器。但是,对于我的问题,我需要使用自定义过滤器。我不知道如何在Java中使用自定义的秒字过滤器。
发布于 2018-11-05 18:48:53
您可以尝试以下代码。
import weka.core.converters.ConverterUtils.DataSource;
import weka.filters.unsupervised.attribute.StringToWordVector;
import weka.core.Instances;
Instances data = DataSource.read(".../document.txt"); //Your document .
filter.setInputFormat(data);
StringToWordVector filter = new StringToWordVector();
filter.setStopwords(new File(".../stopwords.txt")); //stop words file.
Instances data = Filter.useFilter(data,filter);
您还可以阅读以下文档,以更好地理解Weka。http://weka.sourceforge.net/doc.stable/
发布于 2018-11-05 18:18:35
首先,您必须为您的自定义停止词准备一个文本文件。然后可以使用以下代码:
import weka.filters.unsupervised.attribute.StringToWordVector;
StringToWordVector filter = new StringToWordVector(10000);
filter.setStopwords(new File(".../stopwords.txt"));
希望它能帮到你。
https://datascience.stackexchange.com/questions/40784
复制