爬虫总结 | 爬虫的那点事第一篇一、在(反)爬虫路上的心得和解决方案二、分布式爬虫的经验三、对于后期的内容精准推送有什么建议四、爬虫中遇到的一些坑五、视频落地和精准推送六、数据落地,后期做用户画像考虑

现在慢慢开始对爬虫的一些工作做一个总结,这是第一篇文章,整理聊下做一个爬虫系统时的一些感悟。

一、在(反)爬虫路上的心得和解决方案

在讲反爬之前,先说阐明我的一个观点:反反爬的过程其实是一个和我们的客户(反爬平台)达成和解的过程,保持一种近乎双赢的平衡,不到万不得已不要做技术上的硬碰硬,因为客户是上帝,惹毛了它,对大家都不好。 我们爬了两百多个平台,很多小平台经常被我们爬挂掉啦。网上有一个比较流行的反爬和反反爬的对比图,我想说的是,大家都是搞技术的,何必如此!

image.png

1.1、心得

  • 心得一:找出软柿子 一个平台的数据,一般会在很多端呈现,比如手机移动端(主要包括以m开头,也叫做wap)、PC端以及手机APP端。 一般情况下,m站是最简单的,它是首选。如果是拿API的话,很多APP端的也是比PC端要简单的多。PC端的反爬很多,包括各种验证码等。 当然,这不是绝对的,有的时候PC站的信息最全,而你又恰好需要全部的信息,那么PC站是首选。一般m站都以m开头后接域名。 这里说明一点,没有平台是没有手机移动端的,比如抖音只有APP,你觉得它有没有手机移动端?有的,你从APP分享出去一个页面就是啦。
  • 心得二:要善于使用浏览器调试工具 以Chrome浏览器为例。 第一步:Chrome浏览器打开页面 F12 点击Network,选中XHR(XMLHttpRequest方法发送的请求),刷新页面查看得到的一些AJAX请求是否有我们需要请求, 第二步:选择手机版,重复第一步的动作,查看是否有没有想要的AJAX请求,以上都没有的情况下,选中doc刷新页面,我们想要的页面一般就在doc中。
  • 心得三:前端知识很重要 看得懂JS,很多反爬都是在JS层面做的。 知道有NodeJS中间层这个东西,很多公司都是通过NodeJS做中间层进行前后端分离的并解决性能问题,在异步ajax转成同步渲染过程中得到平衡。如下图,把数据通过NodeJS处理完之后放到HTML的一个属性里面再返回(很多平台就是这么干的)。

image.png

1.2、解决方案

  • 伪装 User Agent法 在settings配置文件中新增User Agent池,在middlewares里面去调用。
========settings配置文件========
#User-Agent池
USER_AGENT_LIST = [
        'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/55.0.2883.87 Chrome/55.0.2883.87 Safari/537.36',
        'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.87 Safari/537.36',
        'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:47.0) Gecko/20100101 Firefox/47.0',
        'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.10; rv:41.0) Gecko/20100101 Firefox/41.0',
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36',
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36',
        'Mozilla/6.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
        'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Mobile Safari/537.36',
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36',
]
========middlewares配置文件========
# User Agent轮换
class RotateUserAgentMiddleware(UserAgentMiddleware):
    def __init__(self, user_agent):
        self.user_agent = user_agent

    def process_request(self, request, spider):
        ua = random.choice(self.user_agent)
        request.headers['User-Agent'] = ua
    
    @classmethod
    def from_crawler(cls, crawler):
        return cls(user_agent=crawler.settings.get('USER_AGENT_LIST'))
  • 轮换IP法 使用IP代理和分布式。 使用IP代码的方式,在settings配置文件中新增IP池,然后在middlewares里面去调用。和伪装 User Agent法的方式一样。
  • 模拟登录 在start_requests到parse之间实现登录操作。
  • 云打码识别验证码 去网上找找,一大堆。
  • 模拟浏览器操作 selenium和PhantomJS模拟人的操作,作为一个需要高效率的爬虫系统,建议不这么做。
  • 达成和解:降低访问频率
  • 破解API 前端知识,破解JS加密。

二、分布式爬虫的经验

分布式需要考虑的几个问题,第一个就是如何搭建分布式爬虫系统;再就是因为使用了分布式,部署爬虫系统的服务器会有很多,那么第二个需要考虑的问题就是如何一键部署;当然也需要监控系统,看看每个任务的运行情况。

2.1、搭建分布式爬虫系统

那么多台主机协作的关键是共享一个爬取队列。可以使用Scrapy-Redis,Scrapy-Redis库改写了Scrapy的调度器,队列等组件,可以方便的实现Scrapy分布式架构。也可以使用其他方式。 我们使用的是Celery+Rabbitmq+Scrapy+Flower构建的分布式爬虫系统。 Celery是一个基于python开发的分布式异步消息队列,轻松实现任务的异步处理。 Celery在执行任务时需要一个消息中间件来接收和发送任务消息,以及存储任务结果,一般使用RabbitMQ 或 Redis,本系统采用的是Rabbitmq。 Flower是Celery的一个实时监控和管理Web界面工具。 Flower使用Celery Events进行实时监视,实现了显示Task进度和历史,显示Task的详细信息(参数,启动时间,运行时间),以及统计数据和图形的表示。 查看有那些节点(worker),点击具体的worker可以查看每个worker的详细情况,以及设置:

image.png

查看Tasks,进入详情页还可以查看参数,启动时间,运行时间,以及任务失败的原因:

image.png

2.2、一键部署

Ansible是新出现的自动化运维工具,基于Python开发,集合了众多运维工具(puppet、cfengine、chef、func、fabric)的优点,实现了批量系统配置、批量程序部署、批量运行命令等功能。

2.3、监控&WEB系统

搭建了一个爬虫系统之后,需要对爬虫爬去的数据进行一个监测,主要包括服务器管理、任务管理、主题管理和数据管理等。 爬虫WEB系统是基于Django构建的爬虫web系统。Django是一个基于Python开发的web应用框架,采用了MTV的框架模式。 这块主要看产品的设计啦。主要目的是监控任务的爬取情况,监控主题的健康情况。

三、对于后期的内容精准推送有什么建议

老板肯定都是希望码农做出来的东西是价格低、质量好、速度快、保稳定,下面我来一个个说。

  • 价格低,可以解释为成本低,人员成本。 这个我就不细讲啦,技术何必为难技术呢。
  • 质量好是指内容质量满足要求,那么就需要对内容进行装饰。 数据采集、内容分发分开的,中间时通过装饰关系表去建立关联。
  • 速度快是指内容推送及时性满足要求,在资源一定时需要可以设置不同任务的优先级。 根据控制不同的任务被消费的worker数进行控制的。
  • 内容稳定性推送,那么需要提高内容分发的稳定性。 需要一个消息队列,比如kafka。

四、爬虫中遇到的一些坑

  • 字符问题 爬出来的内容是乱码,HTTP Header中Accept-Encoding 是浏览器发给服务器,声明浏览器支持的编码类型的。
  • 跨域请求 就是爬去的当前页面的请求参数是来自上一个页面中的一个值,而且还可能是加密的值。
  • 数据藏在img文件中
  • 请求需要破解JS,JS被混淆过

五、视频落地和精准推送

没有做过去把第三方视频落地过,本质上应该是没有什么区别。

六、数据落地,后期做用户画像考虑

提前考虑,把要做用户画像的数据用担当的一个日志文件保存,不然到时候获取需要的数据结构时比较麻烦。 做用户画像困难点可能是在梳理业务,制定合适的权重值。

数据存储的典型方法是Hadoop的分布式文件系统HDFS和HBase。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏前端架构与工程

Webpack中hash与chunkhash的区别,以及js与css的hash指纹解耦方案

文件的hash指纹通常作为前端静态资源实现增量更新的方案之一,Webpack是目前最流行的开源编译工具之一,其强大的功能也带来很多坑(当然,大部分麻烦其实都可以...

3507
来自专栏极客猴

Python 编码规范

软件行业现在基本上是协同工作,不再是以前个人单打独斗的年代了。在一个团队中,每个人可能负责一个或者多个模块。如果团队没有统一的编程规范,会增加代码理解难度,从而...

853
来自专栏专知

专知内容生产基石-数据爬取采集利器WebCollector 介绍

今天给大家介绍下我们专知数据采集系统的基石-WebCollector。 作为主流JAVA开源爬虫框架(GitHub上1500+Stars),WebCollect...

3476
来自专栏finleyMa

求一波star 又一个react仿大众点评小项目

跟着这个视频做的 React高级实战 打造大众点评 WebApp 这个视频的源代码大家在github上搜 “react 大众” 就能找到。

692
来自专栏Seebug漏洞平台

Mozilla Firefox UAF 漏洞 - Seebug 每周一洞-2016-04-15

image.png 漏洞概要 这个模块利用了一个 Mozilla Firefox 3.6.16use-after-free 漏洞。 一个对象元素, mChan...

4047
来自专栏java一日一条

我的编码习惯 - 配置规范(导读)

工作中少不了要制定各种各样的配置文件,这里和大家分享一下工作中我是如何制定配置文件的,这是个人习惯,在我在的项目组中目前要定义配置文件都安装这个步骤,效果还不错...

692
来自专栏喵了个咪的博客空间

PhalApi视频教程

##PhalApi视频教程 先在这里感谢以下录制小组的同学,是你们让世界看到PhalApi的视频教程! A西瓜妹子、听风不语、彩色的雨、Catch、喵了个咪、d...

3237
来自专栏SEO

这9种URL错误对SEO优化有致命影响

2696
来自专栏晨星先生的自留地

老司机带我飚车(2)一个有趣的漏洞PoC调试

1506
来自专栏较真的前端

NodeJS作者总结自己在node设计中的失误

2436

扫码关注云+社区