首先,我不知道这里是否适合这个问题。如果没有,我很抱歉:)
我正在考虑写一个蜘蛛来爬网寻找特定的嵌入式文件。
然而,我想知道ISP是否允许它运行一个爬虫,因为它会以很快的速度发出很多请求。
或者我应该在请求中加入一些延迟?
我已经阅读了我的ISP的合同,但我找不到任何关于爬行的具体内容。
发布于 2010-12-06 00:07:14
你可以看看wget。它有一些有用的想法。你应该注意你想要抓取的站点上的ROBOTS.txt。而且,您应该在请求之间留出一个延迟,以免造成拒绝服务条件。
发布于 2010-12-29 22:59:22
没有什么能阻止你爬行。它与正常的用户交互没有什么不同。如果你打开有很多图片的页面,浏览器一次会发出很多请求。
你可以有传输限制-只要注意你下载了多少数据就可以了。
您必须考虑的一件事是,抓取大量页面可以被认为是DoS攻击,也可以被页面操作员禁止。遵守他们的规则。如果他们要求每天从一台计算机执行的请求不超过N个,请尊重它。做一些延迟以不阻止对站点的访问。
https://stackoverflow.com/questions/4359570
复制相似问题