以下属性是否足够可靠以识别搜索引擎web爬虫?
Request.Browser.Crawler
我的网站创建了一个新的用户,作为一个客人的网页请求,如果他们没有去过该网站,我得到更多的点击超过我的分析的建议。-更多.
我使用上面的片段只创建合法的用户客户帐户,但我认为一些爬虫正在通过。
也许我可以使用HttpRequest UserAgent属性来识别它们。如果是这样的话,请有人建议一个当前的爬虫名称列表,我相信必应机器人,例如,是所谓的bingbot,如提到的这里。
Request.UserAgent
更新:
我确信他们不是使用Request.Browser.Crawler识别的,因为来自65.52.110.143的请求是一个连续的违反者,我认为这是一个bingbot。
发布于 2012-08-03 04:32:50
不幸的是,Request.Browser.Crawler已经过时了。
您可以手动将其他用户代理的检测添加为机器人。使用浏览器元素而不是browserCaps,因为从.NET 2.0开始就不再推荐它了
示例:
<browsers>
<browser id="Googlebot" parentID="Mozilla">
<identification>
<userAgent match="^Googlebot(\-Image)?/(?'version'(?'major'\d+)(?'minor'\.\d+)).*" />
</identification>
<capabilities>
<capability name="crawler" value="true" />
</capabilities>
</browser>
.
.
.
</browsers>
这必须通过应用程序中的.browser目录下的App_Browsers
扩展来保存。
(要匹配的规则列表)
https://stackoverflow.com/questions/11789223
复制相似问题