我正在构建一个搜索引擎(为了好玩),我突然意识到,我的小项目可能会通过点击广告和各种各样的问题来制造麻烦。
那么,好的网络爬虫“礼仪”的指南是什么呢?
脑海中浮现的东西:
阻止爬虫点击广告-这个在我的脑海中特别此刻.如何阻止我的机器人“点击”广告?如果它直接进入广告中的url,它是否被算为点击?
发布于 2009-06-09 13:43:34
您不能只读取robots.txt指令。您还应该看到带有noindex和no追随者的元标记。
关于广告的问题,我不确定,但我想如果你只是阅读链接,然后在其他时间进入页面,输入的页面将没有关于你如何得到那个地址的信息,也不能为“伪点击”向网站收费。
发布于 2009-06-09 13:41:53
不要跟随被标记为rel=的链接。
而且,你不必担心广告。如果您只搜索页面的HTML文本,那么在大多数情况下,您将不会在那里获得广告链接--它们是在客户端使用javascript生成的。
https://stackoverflow.com/questions/970116
复制相似问题