我今天刚开始考虑创建/定制一个网络爬虫,对网络爬虫/机器人礼仪知之甚少。我发现大部分关于礼仪的文章都显得过时和笨拙,所以我想从web开发人员社区获得一些最新的(和实用的)见解。
我想使用爬虫通过“网络”的一个超级简单的目的-“标记的网站XYZ满足条件ABC?”
这给我带来了很多问题,但我认为我首先需要回答的两个主要问题是:
发布于 2008-08-28 14:24:01
服从robots.txt (不要像已经说过的那样过于咄咄逼人)。
您可能需要考虑一下您的用户代理字符串--它们是一个很好的地方,可以预先了解您正在做什么,以及如何与您联系。
发布于 2008-08-28 14:55:07
除了WillDean和Einar的好答案之外,我还建议您花一些时间阅读HTTP响应代码的含义,以及您的爬虫在遇到每个响应代码时应该做什么,因为它将对您的性能产生很大的影响,并且在某些站点上禁止您使用。
一些有用的链接:
HTTP/1.1:状态代码定义
聚合器客户端HTTP测试
维基百科
发布于 2008-08-28 15:48:06
请确保在您的用户代理字符串中包含一个URL,该URL解释机器人爬行的原因//内容。
https://stackoverflow.com/questions/32366
复制相似问题