我正在做一个项目,其中包括文档分类组件。我需要一个库,可以用来对文档进行预处理,并将其转换为特征矩阵。有没有什么库可以做到这一点呢?
发布于 2014-09-12 18:10:34
这里有两个著名的Java库
基于Java的
斯坦福大学核心NLP - http://nlp.stanford.edu/software/classifier.shtml
GATE - http://osdir.com/ml/ai.gate.general/2007-05/msg00003.html,https://gate.ac.uk/sale/tao/splitch19.html#chap:ml
基于Python
NLTK - http://www.nltk.org/api/nltk.classify.html
发布于 2014-12-16 02:04:27
我使用weka进行文档处理。对于大多数文档处理操作,它已经足够了。它包含可用于将文档转换为特征向量的过滤器。它的使用方法如下:
StringToWordVector filter = new StringToWordVector(); //create new filter for vector transformation
NGramTokenizer tokenizer = new NGramTokenizer(); //tokenizer for filter
tokenizer.setNGramMinSize(1);
tokenizer.setNGramMaxSize(1);
tokenizer.setDelimiters("\\W");
SnowballStemmer stemmer = new SnowballStemmer(); //Initializes stemmer
stemmer.setStemmer("english"); //set english stemmer
filter.setLowerCaseTokens(true);
filter.setOutputWordCounts(true);
filter.setTFTransform(true); // //Tf–idf can be successfully used for stop-words filtering in various subject fields including text summarization and classification.
filter.setIDFTransform(true);
filter.setStopwords(new File("C:\\Users\\hp\\Desktop\\SVM implementation\\StopWordsR4.txt")); // stop word removal
filter.setTokenizer(tokenizer);
filter.setStemmer(stemmer);
有关更多详细信息,请使用this
https://stackoverflow.com/questions/25802998
复制相似问题