首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >良好的网络爬虫“礼仪”指南

良好的网络爬虫“礼仪”指南
EN

Stack Overflow用户
提问于 2009-06-09 13:33:12
回答 2查看 876关注 0票数 3

我正在构建一个搜索引擎(为了好玩),我突然意识到,我的小项目可能会通过点击广告和各种各样的问题来制造麻烦。

那么,好的网络爬虫“礼仪”的指南是什么呢?

脑海中浮现的东西:

  1. 遵守Robot.txt指令
  2. 将同时请求的数量限制在同一域中
  3. 不跟踪广告链接?

阻止爬虫点击广告-这个在我的脑海中特别此刻.如何阻止我的机器人“点击”广告?如果它直接进入广告中的url,它是否被算为点击?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2009-06-09 13:43:34

您不能只读取robots.txt指令。您还应该看到带有noindex和no追随者的元标记

关于广告的问题,我不确定,但我想如果你只是阅读链接,然后在其他时间进入页面,输入的页面将没有关于你如何得到那个地址的信息,也不能为“伪点击”向网站收费。

票数 3
EN

Stack Overflow用户

发布于 2009-06-09 13:41:53

不要跟随被标记为rel=的链接。

而且,你不必担心广告。如果您只搜索页面的HTML文本,那么在大多数情况下,您将不会在那里获得广告链接--它们是在客户端使用javascript生成的。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/970116

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档