首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何避免爬取CGI生成的日历网页

如何避免爬取CGI生成的日历网页
EN

Stack Overflow用户
提问于 2012-01-27 13:43:13
回答 1查看 559关注 0票数 0

我正在使用Nutch爬行一个大型网站。

网页由CGI程序生成。大多数网页的URL都包含诸如?id=2323&title=foo之类的表达式。

我想抓取这些网页,因为它们包含许多有用的信息。

然而,我面临的一个问题是,这个网站有一个日历。也会生成一些类似日期的网页。这意味着纳奇将试图抓取一些无害的网页,如year=2030&month=12

这是非常愚蠢的。

如何在Nutch中避免这样的陷阱?编写很多正则表达式?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-04-03 23:26:37

将正则表达式模式添加到conf/regex-urlfilter.txt中,以指定接受或拒绝urls的规则。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/9029424

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档