文章/答案/技术大牛

发布

社区首页 >问答首页 >识别网络爬虫

问识别网络爬虫
EN

Stack Overflow用户

提问于 2012-08-03 04:21:03

回答 1查看 1.9K关注 0票数 2

以下属性是否足够可靠以识别搜索引擎web爬虫？

Request.Browser.Crawler

我的网站创建了一个新的用户，作为一个客人的网页请求，如果他们没有去过该网站，我得到更多的点击超过我的分析的建议。-更多.

我使用上面的片段只创建合法的用户客户帐户，但我认为一些爬虫正在通过。

也许我可以使用HttpRequest UserAgent属性来识别它们。如果是这样的话，请有人建议一个当前的爬虫名称列表，我相信必应机器人，例如，是所谓的bingbot，如提到的这里。

Request.UserAgent

更新：

我确信他们不是使用Request.Browser.Crawler识别的，因为来自65.52.110.143的请求是一个连续的违反者，我认为这是一个bingbot。

asp.net-mvc

web-crawler

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-08-03 04:32:50

不幸的是，Request.Browser.Crawler已经过时了。

您可以手动将其他用户代理的检测添加为机器人。使用浏览器元素而不是browserCaps，因为从.NET 2.0开始就不再推荐它了

示例：

<browsers>
    <browser id="Googlebot" parentID="Mozilla">
        <identification>
            <userAgent match="^Googlebot(\-Image)?/(?'version'(?'major'\d+)(?'minor'\.\d+)).*" />
        </identification>
        <capabilities>
            <capability name="crawler" value="true" />
        </capabilities>
    </browser>
    .
    .
    .
</browsers>

这必须通过应用程序中的.browser目录下的App_Browsers扩展来保存。

(要匹配的规则列表)

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/11789223

复制

相似问题

问识别网络爬虫
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问识别网络爬虫EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问识别网络爬虫
EN