专栏首页京程一灯使用Nginx过滤网络爬虫

使用Nginx过滤网络爬虫

现在的网络爬虫越来越多,有很多爬虫都是初学者写的,和搜索引擎的爬虫不一样,他们不懂如何控制速度,结果往往大量消耗服务器资源,导致带宽白白浪费了。

其实Nginx可以非常容易地根据User-Agent过滤请求,我们只需要在需要URL入口位置通过一个简单的正则表达式就可以过滤不符合要求的爬虫请求:

      ...
      location / {
          if ($http_user_agent ~* "python|curl|java|wget|httpclient|okhttp") {
              return 503;
          }
          # 正常处理
          ...
      }
      ...

变量$http_user_agent是一个可以直接在location中引用的Nginx变量。~*表示不区分大小写的正则匹配,通过python就可以过滤掉80%的Python爬虫。


往期精选文章

使用虚拟dom和JavaScript构建完全响应式的UI框架

扩展 Vue 组件

使用Three.js制作酷炫无比的无穷隧道特效

一个治愈JavaScript疲劳的学习计划

全栈工程师技能大全

WEB前端性能优化常见方法

一小时内搭建一个全栈Web应用框架

干货:CSS 专业技巧

四步实现React页面过渡动画效果

让你分分钟理解 JavaScript 闭包



小手一抖,资料全有。长按二维码关注京程一灯,阅读更多技术文章和业界动态。

本文分享自微信公众号 - 京程一灯(jingchengyideng)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-11-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 掌握Chrome开发工具,做新一代前端开发

    你可能已经熟悉了Chrome开发工具的基本功能。: DOM检查器、样式面板和JavaScript控制台。 但也有一些不太为人所知的特性可以显著提高你调试或开发应...

    疯狂的技术宅
  • 微信小程序商城开发---真机测试有用!!!!

    第一部分(黑色框)是pages是整个里的页面,每添加页面一个页面,都要把路径写在这里:

    疯狂的技术宅
  • 掌握Chrome开发工具:新一代前端开发技术

    你可能已经熟悉了Chrome开发工具的基本功能。: DOM检查器、样式面板和JavaScript控制台。 但也有一些不太为人所知的特性可以显著提高你调试或开发应...

    疯狂的技术宅
  • Scrapy分布式、去重增量爬虫的开发与设计

    分布式采用主从结构设置一个Master服务器和多个Slave服务器,Master端管理Redis数据库和分发下载任务,Slave部署Scrapy爬虫提取网页和解...

    机器学习AI算法工程
  • Python微型异步爬虫框架

    Python微型异步爬虫框架(A micro asynchronous Python website crawler framework)

    py3study
  • 【项目实战】自监控-03-列表排序

    系统:Windows 7 语言版本:Anaconda3-4.3.0.1-Windows-x86_64 编辑器:pycharm-community-2016.3....

    zishendianxia
  • 100 Days of SwiftUI —— Day 78:Time for MapKit

    昨天您构建了一个新应用,该应用可以从用户库中导入照片,并希望您对最终产品感到满意——或至少在最终产品方面取得了很大进展。

    韦弦zhy
  • vb.net 获取CPU序列号

    巴西_prince
  • avast:中兴手机预装恶意软件 嵌入固件底层

    著名安全机构 avast 发布报告称,旗下安全威胁实验室发现,中兴、爱可视、MyPhone 等厂商的多款安卓手机居然预装了恶意广告软件。该恶意软件被命名为“ C...

    伍尚国
  • avast:中兴手机预装恶意软件 嵌入固件底层

    著名安全机构 avast 发布报告称,旗下安全威胁实验室发现,中兴、爱可视、MyPhone 等厂商的多款安卓手机居然预装了恶意广告软件。该恶意软件被命名为“ C...

    周俊辉

扫码关注云+社区

领取腾讯云代金券