我的设置是:UbuntuServer12.04LTS上的Nutch 1.6和Solr 4.3.0
我需要抓取和索引的大网站的内容,并希望这样做使用不同的核心。
我配置了Solr并以这样的方式启动了它:
java -Dsolr.solr.home=multicore -jar start.jar然后我配置并启动了两次Nutch,每个源urls文件夹和索引目标(core0,core1)各一次:
bin/nutch crawl urlsNewsArticles -dir crawlNewsArticles -solr http://localhost:8983/solr/core1 -depth 10 -topN 100000
bin/nutch crawl urlsPictureGalleries -dir crawlPictureGalleries -solr http://localhost:8983/solr/core0 -depth 10 -topN 100000结果是完美的,但是为了过滤掉不想要的URL模式,我必须在regex-urlfilter.txt文件中指定一些regex表达式。由于这两个爬行会话的regex设置不同,在运行第二个爬行之前,我必须编辑regex-urlfilter.txt文件。
问题:是否有一种方法可以准备两个单独的regex-urlfilter.txt文件,并在每个/bin/nutch命令行上指定一个正确的文件?
请考虑一下,我用两个url集和内核开始了我的实验配置,但是我必须配置至少5个,它们应该被配置为自动重新爬行,而不需要在中间进行手动编辑.
发布于 2013-05-24 09:10:09
您可以尝试将多个regex文件和主文件作为链接,并在启动nutch索引之前重新指向它。
https://stackoverflow.com/questions/16715348
复制相似问题