问如何避免爬取CGI生成的日历网页
EN

Stack Overflow用户

提问于 2012-01-27 13:43:13

回答 1查看 559关注 0票数 0

我正在使用Nutch爬行一个大型网站。

网页由CGI程序生成。大多数网页的URL都包含诸如?id=2323&title=foo之类的表达式。

我想抓取这些网页，因为它们包含许多有用的信息。

然而，我面临的一个问题是，这个网站有一个日历。也会生成一些类似日期的网页。这意味着纳奇将试图抓取一些无害的网页，如year=2030&month=12。

这是非常愚蠢的。

如何在Nutch中避免这样的陷阱？编写很多正则表达式？

回答已采纳

发布于 2012-04-03 23:26:37

将正则表达式模式添加到conf/regex-urlfilter.txt中，以指定接受或拒绝urls的规则。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/9029424

复制

相似问题

问如何避免爬取CGI生成的日历网页EN