前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nginx访问日志中UserAgent的一些参考建议

Nginx访问日志中UserAgent的一些参考建议

作者头像
一朵灼灼华
发布2022-08-05 21:12:55
1.3K0
发布2022-08-05 21:12:55
举报

前言

网络上存在各种各样的爬虫与蜘蛛,有的是对网站有帮助的,譬如说:百度(Baiduspider)、谷歌(Googlebot)、Bing(bingbot)等等,但是也有一些纯粹是垃圾爬虫,不但本身对网站毫无帮助,还大幅损耗服务器资源,如:BLEXBot、AhrefsBot、MJ12bot、hubspot、opensiteexplorer、leiki、webmeup 等,所以我们可以通过UserAgent信息来屏蔽垃圾爬虫

nginx配置

将指定的userAgent返回403

代码语言:javascript
复制
if($http_user_agent ~* 'curl|python-requests|urllib|Baiduspider|YisouSpider|Google|Sogou|bingbot|python|AndroidDownloadManager|ZoominfoBot|SemrushBot|AhrefsBot|Java|Jullo|UniversalFeedParser|Swiftbot|Microsoft|oBot|FlightDeckReports|Linguee|DotBot|Indy|jaunty|HttpClient|WinHttp|ZmEu|ApacheBench|CrawlDaddy|BOT for JCE')
{
return 	403;
}

# 如果多个server都设置,建议使用map
# 禁止的user agent
map $http_user_agent $ban_ua {
    default '';
    '~*MJ12bot|curl|NetcraftSurvey|Go-http-client|polaris botnet|python-requests|urllib|Scrapy|Baiduspider|YisouSpider|Google|Sogou|bingbot|python|AndroidDownloadManager|ZoominfoBot|SemrushBot|AhrefsBot|Java|Jullo|UniversalFeedParser|Swiftbot|Microsoft|oBot|FlightDeckReports|Linguee|DotBot|Indy|jaunty|HttpClient|WinHttp|ZmEu|ApacheBench|CrawlDaddy|BOT for JCE'  'error';
}
if ($ban_ua){
    return 403;
}

推荐允许

搜索引擎类

常见的搜索引擎的可以推荐,利于收录,一般都遵循robots.txt协议

  • 百度:BaiduSpider,
  • Google:Googlebot,
  • 360:360Spider,
  • Bing:bingbot,
  • 搜搜:Sosospider,

订阅类

  • RSS订阅采集:FeedDemon,Feedly

禁止类-数据采集

该分类下的爬虫对网站帮助不大,可能会暴力爬取页面,流氓的有的还不遵循robots.txt协议

  • ZoominfoBot 是一个北美为主的数据网站,用来搜寻北美公司曾经出现在网页上的邮箱
  • MJ12bot 暴力蜘蛛
  • SemrushBot 提供SEO数据的平台,包括关键字研究和反向链接。
  • AhrefsBot 国外营销爬虫,无用爬虫。
  • Java 内容采集
  • Jullo 内容采集
  • UniversalFeedParser 内容采集
  • Swiftbot 无用爬虫
  • Microsoft URL Control ;扫描
  • oBot 无用爬虫
  • Python-urllib 内容采集
  • FlightDeckReports Bot 无用爬虫
  • Linguee Bot 无用爬虫
  • DotBot 无用爬虫
  • BLEXBot 美国查反链的工具网站
  • opensiteexplorer 国外seo工具网站
  • hubspot国外企业营销
  • MJ12bot英国搜索引擎
  • yandex俄罗斯搜索引擎
  • zmeu漏洞扫描软件
  • polaris botnet僵尸网络
  • NetcraftSurvey垃圾

rebots.txt配置

  • User-agent: Baiduspider
  • Allow: /
  • User-agent: Baiduspider-image
  • Allow: /
  • User-agent: ;Baiduspider-video
  • Allow: /
  • User-agent: Baiduspider-news
  • Allow: /
  • User-agent: Googlebot
  • Allow: /
  • User-agent: MSNBot
  • Allow: /
  • User-agent: MJ12bot
  • Disallow: /
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020-05-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • nginx配置
  • 推荐允许
    • 搜索引擎类
      • 订阅类
        • 禁止类-数据采集
        • rebots.txt配置
        相关产品与服务
        脆弱性检测服务
        脆弱性检测服务(Vulnerability detection Service,VDS)在理解客户实际需求的情况下,制定符合企业规模的漏洞扫描方案。通过漏洞扫描器对客户指定的计算机系统、网络组件、应用程序进行全面的漏洞检测服务,由腾讯云安全专家对扫描结果进行解读,为您提供专业的漏洞修复建议和指导服务,有效地降低企业资产安全风险。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档