最近桂林在关注nutch的进展状况,这里有几个重要的消息要和大家分享: 1、nutch 0.7 发布了; 2、nutch 的java源代码包路径改变成了org.apache... 3、yahoo也使用了nutch,并做了很多的工作。1 2 clustering-carrot2 : 一个搜索结果类聚的代码框架,目前和Egothor等搜 索引擎结合的很好; 地址:http://sourceforge.net/projects/carrot2 相关类:org.apache.nutch.clustering.OnlineClusterer Nutch Online Search Results Clustering Plugin org.apache.nutch.clustering.carrot2 Carrot2 Clusterer creativecommons : 一个创作共用的工具集合。地址:http://creativecommons.org/ ; 相关类: org.apache.nutch.parse.HtmlParseFilter HTML Parse Filter org.apache.nutch.indexer.IndexingFilter Nutch Indexing Filter org.apache.nutch.searcher.QueryFilter Nutch Query Filter index-basic : 相关类: org.apache.nutch.indexer.IndexingFilter Nutch Indexing Filter index-more : language-identifier : 语言检测工具; 相关类: org.apache.nutch.analysis.lang.LanguageParser Nutch language Parser org.apache.nutch.analysis.lang Nutch language identifier filter org.apache.nutch.analysis.lang.LanguageQueryFilter Nutch Language Query Filter ontology : 一个概念话的规范,主要是针对人工智能的; 相关类: org.apache.nutch.ontology.Ontology Ontology Model Loader parse-ext : parse-html : parse-js : 解析js文档 parse-msword : 解析msword文档 parse-pdf : 解析pdf文档 相关类: org.apache.nutch.parse.pdf.PdfParser parse-rss : 解析Rss格式文档 parse-text : 解析text文档 protocol-file : protocol-ftp : protocol-http : protocol-httpclient : query-basic : query-more : query-site : query-url : urlfilter-prefix : urlfilter-regex :