首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >运行爬行器(webcrawler)来查找特定内容

运行爬行器(webcrawler)来查找特定内容
EN

Stack Overflow用户
提问于 2010-12-05 23:43:09
回答 2查看 1.1K关注 0票数 4

首先,我不知道这里是否适合这个问题。如果没有,我很抱歉:)

我正在考虑写一个蜘蛛来爬网寻找特定的嵌入式文件。

然而,我想知道ISP是否允许它运行一个爬虫,因为它会以很快的速度发出很多请求。

或者我应该在请求中加入一些延迟?

我已经阅读了我的ISP的合同,但我找不到任何关于爬行的具体内容。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2010-12-06 00:07:14

你可以看看wget。它有一些有用的想法。你应该注意你想要抓取的站点上的ROBOTS.txt。而且,您应该在请求之间留出一个延迟,以免造成拒绝服务条件。

票数 2
EN

Stack Overflow用户

发布于 2010-12-29 22:59:22

没有什么能阻止你爬行。它与正常的用户交互没有什么不同。如果你打开有很多图片的页面,浏览器一次会发出很多请求。

你可以有传输限制-只要注意你下载了多少数据就可以了。

您必须考虑的一件事是,抓取大量页面可以被认为是DoS攻击,也可以被页面操作员禁止。遵守他们的规则。如果他们要求每天从一台计算机执行的请求不超过N个,请尊重它。做一些延迟以不阻止对站点的访问。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4359570

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档