我正在寻找Apache Lucene网络爬虫写在java,如果可能的话,或在任何其他语言。爬虫必须使用lucene并创建有效的lucene索引和文档文件,因此这就是nutch被排除的原因。
有没有人知道这样的网络爬虫是否存在,如果答案是肯定的,我可以找到它。Tnx..。
发布于 2009-10-17 09:57:49
您所要求的是两个组件:
首先说一句鼓励的话:去过那里,去做那件事。我将从创建自己的角度分别处理这两个组件,因为我不相信您可以使用Lucene来做您所请求的事情,而不真正了解其背后发生了什么。
网络爬虫
因此,你有一个网站/目录,你想“爬行”通过收集特定的资源。假设它是任何列出目录内容的普通web服务器,创建web爬虫很容易:只需将其指向目录的根目录,并定义收集实际文件的规则,例如"ends with .txt“。非常简单的东西,真的。
实际的实现可能是这样的:使用HttpClient获得实际的网页/目录清单,以您认为最有效的方式解析它们,例如使用XPath从获取的文档中选择所有链接,或者使用现成的Pattern和Matcher类使用正则表达式解析它。如果您决定采用XPath路线,请考虑使用JDOM处理DOM,使用Jaxen处理实际的XPath。
一旦您获得了所需的实际资源,例如一堆文本文件,您需要确定数据类型,以便能够知道要索引哪些数据,以及可以安全地忽略哪些数据。为了简单起见,我假设这些是没有字段或任何内容的纯文本文件,并且不会深入讨论,但是如果您有多个字段要存储,我建议您让爬虫生成1..n个带有accessors and mutators的专用bean (优点:使bean ,不允许访问者改变bean的内部状态,为bean创建一个 )以在其他组件中使用。
在API调用方面,你应该有像HttpCrawler#getDocuments(String url)这样的东西,它返回一个与实际索引器结合使用的List<YourBean>。
基于Lucene的自动索引器
除了使用Lucene的the obvious stuff之外,比如设置目录和理解它的线程模型(任何时候只允许一个写操作,即使在更新索引时也可能存在多个读操作),您当然希望将bean提供给索引。我已经链接到的5分钟教程基本上就做到了这一点,查看示例addDoc(..)方法,只需用YourBean替换字符串。
请注意,Lucene IndexWriter确实有一些清理方法,可以方便地以受控方式执行,例如,只有在将一堆文档添加到索引后才调用IndexWriter#commit()对性能有好处,然后调用IndexWriter#optimize()以确保索引不会随着时间的推移而变得非常膨胀也是一个好主意。记住也要关闭索引,以避免抛出不必要的LockObtainFailedException,因为对于Java语言中的所有IO,这样的操作当然应该在finally块中完成。
注意事项
[0 to 5]实际上会转换为+0 +1 +2 +3 +4 +5,这意味着范围查询很快就会消失,因为存在最大数量的查询子部分。有了这些信息,我相信你可以在不到一天的时间里制作出你自己的Lucene索引器,如果你想严格测试它的话,可以在三天内完成。
发布于 2009-10-17 02:49:43
看看solr search server和nutch (crawler),它们都与lucene项目相关。
https://stackoverflow.com/questions/1580882
复制相似问题