文章/答案/技术大牛

发布

社区首页 >问答首页 >网络爬虫是如何影响网站统计的？

问网络爬虫是如何影响网站统计的？
EN

Stack Overflow用户

提问于 2010-04-12 18:18:57

回答 2查看 1.1K关注 0票数 1

网络爬虫(包括搜索引擎和非搜索引擎)会以什么方式影响网站统计(例如，在进行AB测试不同页面的变化时)？解决这些问题的方法是什么？

例如：

很多人在写网页爬虫时经常会删除自己的cookie并屏蔽他们的IP，所以每次抓取网站时，爬虫者都会以不同的用户身份出现吗？
什么是启发式来识别某物是一个机器人？(我猜任何足够复杂的机器人都可能与真正的用户无法区分，如果它想要的话-这是正确的吗？)

为了澄清，基于以下评论:我也感兴趣的情况下，我的网站是具体的目标(可能是非法爬虫)。

web-crawler

回答 2

Stack Overflow用户

回答已采纳

发布于 2010-04-12 18:24:24

检测机器人的几种简单方法：

点击/robots.txt -只有机器人(和古怪的人，谁可能是机器人无论如何)将看到这一点。
用户代理负责的机器人通常在他们的UA字符串中有一个URL (例如，msnbot/2.0b (+http://search.msn.com/msnbot.htm或Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.2.1; aggregator:Spinn3r (Spinn3r 3.1); http://spinn3r.com/robot) Gecko/20021130)，因此看到这是一个相当强的机器人指示。
JavaScript -机器人不会执行它，所以如果您使用JavaScript来设置cookie，当您在服务器上看到该cookie时，您可以非常肯定它是由“真正的”浏览器发送的。
源is合法爬虫通常会有自己的域名，反向DNS查找将显示(这是如何Google建议你识别Googlebot)。

在这两者之间，你应该没有问题，找出哪些命中来自机器人，哪些来自真实的人。

最后，总会有一些很难察觉的讨厌和/或愚蠢的机器人。但是，至少在我的经验中，野生动物的数量并不多。

票数 4

Stack Overflow用户

发布于 2013-03-03 20:32:15

爬行器通常按顺序爬行，即页面上的第一个链接，然后是第二个链接。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/2624324

复制

相似问题

问网络爬虫是如何影响网站统计的？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问网络爬虫是如何影响网站统计的？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问网络爬虫是如何影响网站统计的？
EN