文章/答案/技术大牛

发布

社区首页 >问答首页 >运行爬行器(webcrawler)来查找特定内容

问运行爬行器(webcrawler)来查找特定内容
EN

Stack Overflow用户

提问于 2010-12-05 23:43:09

回答 2查看 1.1K关注 0票数 4

首先，我不知道这里是否适合这个问题。如果没有，我很抱歉:)

我正在考虑写一个蜘蛛来爬网寻找特定的嵌入式文件。

然而，我想知道ISP是否允许它运行一个爬虫，因为它会以很快的速度发出很多请求。

或者我应该在请求中加入一些延迟？

我已经阅读了我的ISP的合同，但我找不到任何关于爬行的具体内容。

web-crawler

回答 2

Stack Overflow用户

回答已采纳

发布于 2010-12-06 00:07:14

你可以看看wget。它有一些有用的想法。你应该注意你想要抓取的站点上的ROBOTS.txt。而且，您应该在请求之间留出一个延迟，以免造成拒绝服务条件。

票数 2

Stack Overflow用户

发布于 2010-12-29 22:59:22

没有什么能阻止你爬行。它与正常的用户交互没有什么不同。如果你打开有很多图片的页面，浏览器一次会发出很多请求。

你可以有传输限制-只要注意你下载了多少数据就可以了。

您必须考虑的一件事是，抓取大量页面可以被认为是DoS攻击，也可以被页面操作员禁止。遵守他们的规则。如果他们要求每天从一台计算机执行的请求不超过N个，请尊重它。做一些延迟以不阻止对站点的访问。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/4359570

复制

相似问题

问运行爬行器(webcrawler)来查找特定内容
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问运行爬行器(webcrawler)来查找特定内容EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问运行爬行器(webcrawler)来查找特定内容
EN