首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >文档处理库

文档处理库
EN

Stack Overflow用户
提问于 2014-09-12 15:29:12
回答 2查看 120关注 0票数 1

我正在做一个项目,其中包括文档分类组件。我需要一个库,可以用来对文档进行预处理,并将其转换为特征矩阵。有没有什么库可以做到这一点呢?

EN

回答 2

Stack Overflow用户

发布于 2014-09-12 18:10:34

这里有两个著名的Java库

基于Java的

斯坦福大学核心NLP - http://nlp.stanford.edu/software/classifier.shtml

GATE - http://osdir.com/ml/ai.gate.general/2007-05/msg00003.htmlhttps://gate.ac.uk/sale/tao/splitch19.html#chap:ml

基于Python

NLTK - http://www.nltk.org/api/nltk.classify.html

票数 2
EN

Stack Overflow用户

发布于 2014-12-16 02:04:27

我使用weka进行文档处理。对于大多数文档处理操作,它已经足够了。它包含可用于将文档转换为特征向量的过滤器。它的使用方法如下:

代码语言:javascript
运行
复制
        StringToWordVector filter = new StringToWordVector(); //create new filter for vector transformation

        NGramTokenizer tokenizer = new NGramTokenizer(); //tokenizer for filter
        tokenizer.setNGramMinSize(1); 
        tokenizer.setNGramMaxSize(1);
        tokenizer.setDelimiters("\\W");


        SnowballStemmer stemmer = new SnowballStemmer();  //Initializes stemmer 
        stemmer.setStemmer("english"); //set english stemmer


        filter.setLowerCaseTokens(true); 
        filter.setOutputWordCounts(true); 

        filter.setTFTransform(true); //   //Tf–idf can be successfully used for stop-words filtering in various subject fields including text summarization and classification.
        filter.setIDFTransform(true);      
        filter.setStopwords(new File("C:\\Users\\hp\\Desktop\\SVM implementation\\StopWordsR4.txt")); // stop word removal 
        filter.setTokenizer(tokenizer); 
        filter.setStemmer(stemmer);

有关更多详细信息,请使用this

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/25802998

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档