文章/答案/技术大牛

发布

社区首页 >问答首页 >文档处理库

问文档处理库
EN

Stack Overflow用户

提问于 2014-09-12 15:29:12

回答 2查看 120关注 0票数 1

我正在做一个项目，其中包括文档分类组件。我需要一个库，可以用来对文档进行预处理，并将其转换为特征矩阵。有没有什么库可以做到这一点呢？

nlp

回答 2

Stack Overflow用户

发布于 2014-09-12 18:10:34

这里有两个著名的Java库

基于Java的

斯坦福大学核心NLP - http://nlp.stanford.edu/software/classifier.shtml

GATE - http://osdir.com/ml/ai.gate.general/2007-05/msg00003.html，https://gate.ac.uk/sale/tao/splitch19.html#chap:ml

基于Python

NLTK - http://www.nltk.org/api/nltk.classify.html

票数 2

Stack Overflow用户

发布于 2014-12-16 02:04:27

我使用weka进行文档处理。对于大多数文档处理操作，它已经足够了。它包含可用于将文档转换为特征向量的过滤器。它的使用方法如下：

        StringToWordVector filter = new StringToWordVector(); //create new filter for vector transformation

        NGramTokenizer tokenizer = new NGramTokenizer(); //tokenizer for filter
        tokenizer.setNGramMinSize(1); 
        tokenizer.setNGramMaxSize(1);
        tokenizer.setDelimiters("\\W");


        SnowballStemmer stemmer = new SnowballStemmer();  //Initializes stemmer 
        stemmer.setStemmer("english"); //set english stemmer


        filter.setLowerCaseTokens(true); 
        filter.setOutputWordCounts(true); 

        filter.setTFTransform(true); //   //Tf–idf can be successfully used for stop-words filtering in various subject fields including text summarization and classification.
        filter.setIDFTransform(true);      
        filter.setStopwords(new File("C:\\Users\\hp\\Desktop\\SVM implementation\\StopWordsR4.txt")); // stop word removal 
        filter.setTokenizer(tokenizer); 
        filter.setStemmer(stemmer);

有关更多详细信息，请使用this

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/25802998

复制

相似问题

问文档处理库
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文档处理库EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文档处理库
EN