首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >分离Nutch regex文件以爬行和索引到多个Solr核

分离Nutch regex文件以爬行和索引到多个Solr核
EN

Stack Overflow用户
提问于 2013-05-23 13:34:38
回答 1查看 779关注 0票数 0

我的设置是:UbuntuServer12.04LTS上的Nutch 1.6和Solr 4.3.0

我需要抓取和索引的大网站的内容,并希望这样做使用不同的核心。

我配置了Solr并以这样的方式启动了它:

代码语言:javascript
运行
复制
java -Dsolr.solr.home=multicore -jar start.jar

然后我配置并启动了两次Nutch,每个源urls文件夹和索引目标(core0,core1)各一次:

代码语言:javascript
运行
复制
bin/nutch crawl urlsNewsArticles -dir crawlNewsArticles -solr http://localhost:8983/solr/core1 -depth 10 -topN 100000

bin/nutch crawl urlsPictureGalleries -dir crawlPictureGalleries -solr http://localhost:8983/solr/core0 -depth 10 -topN 100000

结果是完美的,但是为了过滤掉不想要的URL模式,我必须在regex-urlfilter.txt文件中指定一些regex表达式。由于这两个爬行会话的regex设置不同,在运行第二个爬行之前,我必须编辑regex-urlfilter.txt文件。

问题:是否有一种方法可以准备两个单独的regex-urlfilter.txt文件,并在每个/bin/nutch命令行上指定一个正确的文件?

请考虑一下,我用两个url集和内核开始了我的实验配置,但是我必须配置至少5个,它们应该被配置为自动重新爬行,而不需要在中间进行手动编辑.

EN

Stack Overflow用户

回答已采纳

发布于 2013-05-24 09:10:09

您可以尝试将多个regex文件和主文件作为链接,并在启动nutch索引之前重新指向它。

票数 2
EN
查看全部 1 条回答
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16715348

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档