网络爬虫(包括搜索引擎和非搜索引擎)会以什么方式影响网站统计(例如,在进行AB测试不同页面的变化时)?解决这些问题的方法是什么?
例如:
为了澄清,基于以下评论:我也感兴趣的情况下,我的网站是具体的目标(可能是非法爬虫)。
发布于 2010-04-12 18:24:24
检测机器人的几种简单方法:
/robots.txt
-只有机器人(和古怪的人,谁可能是机器人无论如何)将看到这一点。msnbot/2.0b (+http://search.msn.com/msnbot.htm
或Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.2.1; aggregator:Spinn3r (Spinn3r 3.1); http://spinn3r.com/robot) Gecko/20021130
),因此看到这是一个相当强的机器人指示。在这两者之间,你应该没有问题,找出哪些命中来自机器人,哪些来自真实的人。
最后,总会有一些很难察觉的讨厌和/或愚蠢的机器人。但是,至少在我的经验中,野生动物的数量并不多。
发布于 2013-03-03 20:32:15
爬行器通常按顺序爬行,即页面上的第一个链接,然后是第二个链接。
https://stackoverflow.com/questions/2624324
复制相似问题