我正在使用Nutch爬行一个大型网站。
网页由CGI程序生成。大多数网页的URL都包含诸如?id=2323&title=foo
之类的表达式。
我想抓取这些网页,因为它们包含许多有用的信息。
然而,我面临的一个问题是,这个网站有一个日历。也会生成一些类似日期的网页。这意味着纳奇将试图抓取一些无害的网页,如year=2030&month=12
。
这是非常愚蠢的。
如何在Nutch中避免这样的陷阱?编写很多正则表达式?
发布于 2012-04-03 23:26:37
将正则表达式模式添加到conf/regex-urlfilter.txt
中,以指定接受或拒绝urls的规则。
https://stackoverflow.com/questions/9029424
复制相似问题