首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >识别网络爬虫

识别网络爬虫
EN

Stack Overflow用户
提问于 2012-08-03 04:21:03
回答 1查看 1.9K关注 0票数 2

以下属性是否足够可靠以识别搜索引擎web爬虫?

Request.Browser.Crawler

我的网站创建了一个新的用户,作为一个客人的网页请求,如果他们没有去过该网站,我得到更多的点击超过我的分析的建议。-更多.

我使用上面的片段只创建合法的用户客户帐户,但我认为一些爬虫正在通过。

也许我可以使用HttpRequest UserAgent属性来识别它们。如果是这样的话,请有人建议一个当前的爬虫名称列表,我相信必应机器人,例如,是所谓的bingbot,如提到的这里

代码语言:javascript
运行
复制
Request.UserAgent

更新:

我确信他们不是使用Request.Browser.Crawler识别的,因为来自65.52.110.143的请求是一个连续的违反者,我认为这是一个bingbot。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-08-03 04:32:50

不幸的是,Request.Browser.Crawler已经过时了。

您可以手动将其他用户代理的检测添加为机器人。使用浏览器元素而不是browserCaps,因为从.NET 2.0开始就不再推荐它了

示例:

代码语言:javascript
运行
复制
<browsers>
    <browser id="Googlebot" parentID="Mozilla">
        <identification>
            <userAgent match="^Googlebot(\-Image)?/(?'version'(?'major'\d+)(?'minor'\.\d+)).*" />
        </identification>
        <capabilities>
            <capability name="crawler" value="true" />
        </capabilities>
    </browser>
    .
    .
    .
</browsers>

这必须通过应用程序中的.browser目录下的App_Browsers扩展来保存。

(要匹配的规则列表)

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/11789223

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档