首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

反爬虫攻略:ApacheNginxPHP禁止某些User Agent抓取网站

最近张戈发现nginx日志中出现了好多宜搜等垃圾抓取记录,于是整理收集了网络各种禁止垃圾蜘蛛爬站方法,在给自己网做设置同时,也给各位站长提供参考。...403; } #禁止指定UA及UA为空访问 if ($http_user_agent ~* "FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot...|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$" ) { return 403; } #禁止非GET|HEAD|POST...可以看出,宜搜蜘蛛和UA为空返回403禁止访问标识,而百度蜘蛛则成功返回200,说明生效! 补充:第二天,查看nginx日志效果截图: ①、UA信息为空垃圾采集被拦截: ?...五、附录:UA收集 下面是网络常见垃圾UA列表,仅供参考,同时也欢迎你来补充。

1.8K10

服务器反爬虫攻略:ApacheNginxPHP禁止某些User Agent抓取网站

我们都知道网络爬虫非常多,有对网站收录有益,比如百度蜘蛛(Baiduspider),也有不但不遵守 robots 规则对服务器造成压力,还不能为网站带来流量无用爬虫,比如宜搜蜘蛛(YisouSpider...最近张戈发现 nginx 日志中出现了好多宜搜等垃圾抓取记录,于是整理收集了网络各种禁止垃圾蜘蛛爬站方法,在给自己网做设置同时,也给各位站长提供参考。...(Scrapy|Curl|HttpClient)) {      return 403; } #禁止指定UA及UA为空访问 if ($http_user_agent ~* "FeedDemon|Indy...可以看出,宜搜蜘蛛和 UA 为空返回403 禁止访问标识,而百度蜘蛛则成功返回 200,说明生效! 补充:第二天,查看 nginx 日志效果截图: ①、UA 信息为空垃圾采集被拦截: ?...五、附录:UA 收集 下面是网络常见垃圾 UA 列表,仅供参考,同时也欢迎你来补充。

2.3K50
您找到你想要的搜索结果了吗?
是的
没有找到

Nginx访问日志中UserAgent一些参考建议

前言 网络存在各种各样爬虫与蜘蛛,有的是对网站有帮助,譬如说:百度(Baiduspider)、谷歌(Googlebot)、Bing(bingbot)等等,但是也有一些纯粹是垃圾爬虫,不但本身对网站毫无帮助...nginx配置 将指定userAgent返回403 if($http_user_agent ~* 'curl|python-requests|urllib|Baiduspider|YisouSpider...for JCE') { return 403; } # 如果多个server都设置,建议使用map # 禁止user agent map $http_user_agent $ban_ua {...for JCE' 'error'; } if ($ban_ua){ return 403; } 推荐允许 搜索引擎类 常见搜索引擎可以推荐,利于收录,一般都遵循robots.txt协议...-数据采集 该分类下爬虫对网站帮助不大,可能会暴力爬取页面,流氓有的还不遵循robots.txt协议 ZoominfoBot 是一个北美为主数据网站,用来搜寻北美公司曾经出现在网页邮箱 MJ12bot

1.3K10

SEO分享:彻底禁止搜索引擎抓取收录动态页面或指定路径方法

中含有spider或bot时,继续为变量赋值(通过累加赋值间接实现nginx多重条件判断)     if ($http_user_agent ~* "spider|bot") {      set $...) {          return 403; #如果是删除已收录,则可以返回404          break;      }      #### 新增规则【结束】 #### #以下规则略......,直接返回 403(如何返回 404,有知道朋友请留言告知下,测试成功朋友也敬请分享一下代码,我实在没时间折腾了。)...$_SERVER['QUERY_STRING'];     $Spider_UA  = '/(spider|bot|)/i'; //定义需要禁止蜘蛛UA,一般是spider和bot     //禁止蜘蛛抓取路径...Forbidden'); //可选择返回404或者403(有朋友说内链404对SEO不太友好)              header("status: 403 Forbidden");

2K60

Nginx常用屏蔽规则 - 防止垃圾蜘蛛

** 防止文件被下载 比如将网站数据库导出到站点根目录进行备份,很有可能也会被别人下载,从而导致数据丢失风险。以下规则可以防止一些常规文件被下载,可根据实际情况增减。 location ~ \....if ($http_user_agent ~* (SemrushBot|python|MJ12bot|AhrefsBot|AhrefsBot|hubspot|opensiteexplorer|leiki...|webmeup)) {      return 444;} 复制 禁止某个目录执行脚本 比如网站上传目录,通常存放都是静态文件,如果因程序验证不严谨被上传木马程序,导致网站被黑。...以下规则请根据自身情况改为您自己目录,需要禁止脚本后缀也可以自行添加。...上面大部分规则返回444状态码而不是403,因为444状态码在nginx中有特殊含义nginx444状态是直接由服务器中断连接,不会向客户端再返回任何消息,比返回403更加暴力

1.3K20

Nginx常用屏蔽规则,让网站更安全

防止文件被下载 比如将网站数据库导出到站点根目录进行备份,很有可能也会被别人下载,从而导致数据丢失风险。以下规则可以防止一些常规文件被下载,可根据实际情况增减。 location ~ \....if ($http_user_agent ~* (SemrushBot|python|MJ12bot|AhrefsBot|AhrefsBot|hubspot|opensiteexplorer|leiki...|webmeup)) { return 444; } 禁止某个目录执行脚本 比如网站上传目录,通常存放都是静态文件,如果因程序验证不严谨被上传木马程序,导致网站被黑。...以下规则请根据自身情况改为您自己目录,需要禁止脚本后缀也可以自行添加。...上面大部分规则返回444状态码而不是403,因为444状态码在ng­inx中有特殊含义。ng­inx 444状态是直接由服务器中断连接,不会向客户端再返回任何消息,比返回403更加暴力。

28310

Nginx常用屏蔽规则 - 让网站更安全

** 防止文件被下载 比如将网站数据库导出到站点根目录进行备份,很有可能也会被别人下载,从而导致数据丢失风险。以下规则可以防止一些常规文件被下载,可根据实际情况增减。 location ~ \....if ($http_user_agent ~* (SemrushBot|python|MJ12bot|AhrefsBot|AhrefsBot|hubspot|opensiteexplorer|leiki...|webmeup)) { return 444; } 禁止某个目录执行脚本 比如网站上传目录,通常存放都是静态文件,如果因程序验证不严谨被上传木马程序,导致网站被黑。...以下规则请根据自身情况改为您自己目录,需要禁止脚本后缀也可以自行添加。...上面大部分规则返回444状态码而不是403,因为444状态码在nginx中有特殊含义 nginx444状态是直接由服务器中断连接,不会向客户端再返回任何消息,比返回403更加暴力 版权属于:Xcnte

1.5K20

Nginx常用屏蔽规则,让网站更安全

防止文件被下载 比如将网站数据库导出到站点根目录进行备份,很有可能也会被别人下载,从而导致数据丢失风险。以下规则可以防止一些常规文件被下载,可根据实际情况增减。 location ~ \....if ($http_user_agent ~* (SemrushBot|python|MJ12bot|AhrefsBot|AhrefsBot|hubspot|opensiteexplorer|leiki...|webmeup)) { return 444; } 禁止某个目录执行脚本 比如网站上传目录,通常存放都是静态文件,如果因程序验证不严谨被上传木马程序,导致网站被黑。...以下规则请根据自身情况改为您自己目录,需要禁止脚本后缀也可以自行添加。...上面大部分规则返回444状态码而不是403,因为444状态码在nginx中有特殊含义。nginx444状态是直接由服务器中断连接,不会向客户端再返回任何消息,比返回403更加暴力。

1.6K20

Nginx常用屏蔽规则

防止文件被下载 比如将网站数据库导出到站点根目录进行备份,很有可能也会被别人下载,从而导致数据丢失风险。以下规则可以防止一些常规文件被下载,可根据实际情况增减。 location ~ \....|webmeup)) { return 444; } 禁止某个目录执行脚本 #uploads|templets|data 这些目录禁止执行PHP location ~* ^/(uploads|....; if ($invalid_referer) { return 403; } } 再精细一点就是URL加密,针对一些用户IP之类变量生成一个加密URL通常是针对文件下载时候用到...gzip 普通线上web站点gzip压缩是必须要开,压缩一些文本类型文件再返回给用户。...上面大部分规则返回444状态码而不是403,因为444状态码在nginx中有特殊含义。 nginx444状态是直接由服务器中断连接,不会向客户端再返回任何消息,比返回403更加暴力。

1.3K20

Nginx常用屏蔽规则,让网站更安全

防止文件被下载 比如将网站数据库导出到站点根目录进行备份,很有可能也会被别人下载,从而导致数据丢失风险。以下规则可以防止一些常规文件被下载,可根据实际情况增减。 location ~ \....|webmeup)) { return 444; } 禁止某个目录执行脚本 比如网站上传目录,通常存放都是静态文件,如果因程序验证不严谨被上传木马程序,导致网站被黑。...以下规则请根据自身情况改为您自己目录,需要禁止脚本后缀也可以自行添加。...上面大部分规则返回 444 状态码而不是 403,因为 444 状态码在 Nginx 中有特殊含义。...Nginx 444 状态是直接由服务器中断连接,不会向客户端再返回任何消息,比返回 403 更加暴力。若有不足还请补充和指正。

3K20

nginx+uWsgi配置问题解决

uWSGI 是在像 nginx 、 lighttpd 以及 cherokee 服务器一个部署选择。更多选择见 FastCGI 和 独立 WSGI 容器 。...#禁止爬虫工具抓取   if ($http_user_agent ——* "python|curl|java|wget|httpclient|okhttp|Scrapy") {   return 503...;   }   #禁止指定UA及UA为空访问   if ($http_user_agent —— "WinHttp|WebZIP|FetchURL|node-superagent|java/|FeedDemon...Bot|^$" ) {   return 403;   }   3、http请求重定向到https   #http跳转https   set $flag 0;   if ($host = "wxapp.zyqcn.cn...  error_page 502 404 405 500 =200 /error;   #error最好不要带后缀,之前写了个error.html,然后下面想返回成json,结果各种设置不起作用,后来搞了半天之后才发现是后缀

1.2K00

SharePoint Web Parts 是什么

Web Parts 可以说是微软 SharePoint 基础组件。根据微软自己描述,Web Parts 是 SharePoint 对内容进行构建基础,可以想想成一块一块砖块。...我们可以利用 Web Parts 在 SharePoint 中添加文本,图片,文件,视频,甚至是动态内容。...添加 Web Parts在完成页面布局 Section 后,单击页面布局上面的 Section, X 号,就会弹出一个小窗口。...没我要 Web Parts 怎么办这个时候就需要进行开发了,微软也提供了开发工具,同时也包括了一些开发示例代码,你需要首先把这些代码下载下来后进行编译,然后再上传到站点。...samples 连接上代码,克隆到本地后进行一些修改再上传到站点

25630

htaccess简介和16个小技巧

通过htaccess文件,可以帮我们实现: 网页301重定向、 自定义404错误页面、 改变文件扩展名、 允许/阻止特定用户或者目录访问、 禁止目录列表、 配置默认文档等功能。...对于被拒绝IP会返回403错误。...如果你网站上一个图片被别的N多网站引用了,那么,这很有可能会导致你服务器性能下降,使用下面的代码可以保护某些热门链接不被过多引用。...直接找开文件而不是下载 – 通常,我们打开网上文件时候总是会出现一个对话框问我们是下载还是直接打开,使用下面的设置就不会出现这个问题了,直接打开。...保护服务器文件被存取 # prevent access of a certain file order allow,deny deny from all 13.

1.1K20
领券