首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >网络爬虫是如何影响网站统计的?

网络爬虫是如何影响网站统计的?
EN

Stack Overflow用户
提问于 2010-04-12 18:18:57
回答 2查看 1.1K关注 0票数 1

网络爬虫(包括搜索引擎和非搜索引擎)会以什么方式影响网站统计(例如,在进行AB测试不同页面的变化时)?解决这些问题的方法是什么?

例如:

  1. 很多人在写网页爬虫时经常会删除自己的cookie并屏蔽他们的IP,所以每次抓取网站时,爬虫者都会以不同的用户身份出现吗?
  2. 什么是启发式来识别某物是一个机器人?(我猜任何足够复杂的机器人都可能与真正的用户无法区分,如果它想要的话-这是正确的吗?)

为了澄清,基于以下评论:我也感兴趣的情况下,我的网站是具体的目标(可能是非法爬虫)。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2010-04-12 18:24:24

检测机器人的几种简单方法:

  1. 点击/robots.txt -只有机器人(和古怪的人,谁可能是机器人无论如何)将看到这一点。
  2. 用户代理负责的机器人通常在他们的UA字符串中有一个URL (例如,msnbot/2.0b (+http://search.msn.com/msnbot.htmMozilla/5.0 (X11; U; Linux i686; en-US; rv:1.2.1; aggregator:Spinn3r (Spinn3r 3.1); http://spinn3r.com/robot) Gecko/20021130),因此看到这是一个相当强的机器人指示。
  3. JavaScript -机器人不会执行它,所以如果您使用JavaScript来设置cookie,当您在服务器上看到该cookie时,您可以非常肯定它是由“真正的”浏览器发送的。
  4. 源is合法爬虫通常会有自己的域名,反向DNS查找将显示(这是如何Google建议你识别Googlebot)。

在这两者之间,你应该没有问题,找出哪些命中来自机器人,哪些来自真实的人。

最后,总会有一些很难察觉的讨厌和/或愚蠢的机器人。但是,至少在我的经验中,野生动物的数量并不多。

票数 4
EN

Stack Overflow用户

发布于 2013-03-03 20:32:15

爬行器通常按顺序爬行,即页面上的第一个链接,然后是第二个链接。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/2624324

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档