爬虫笔记(二):爬虫相关模块介绍

Request包介绍

下面就只介绍requests.get()方法,其他的post()、put()、delete()用法瞄一瞄源码就差不多了,get()方法的源码,简单翻译一下

在get()方法定义中我们可以看到一个可变参数,在Pychram中选中这个参数,按F12就能看相关配置参数的定义了;这里的参数很多,我也就不一一列举了,我就列两个常用的就行。

headers

在这个参数中我们常配置一个User-agent属性,一些网站常常通过判断User-agent 来给不同的操作系统、不同的浏览器发送不同的页面,所以为了让我们的爬虫更像是用户通过浏览器来访问的,就需要配置一下这个属性。百度上一搜,就能找到一大堆各个不同浏览器的User-agent,copy一个用就行

proxies

设置IP代理,一般网站都不欢迎爬虫,当我们的爬虫过于频繁去访问网站的页面时,可能就会被网站封锁IP,无法访问网站信息,那么这时我们就需要一个IP代理。网上能百度到一大堆免费IP的(只是大部分用不了啊,尴尬!!!)

可以多搞几个可用的IP,每次请求时从代理池中随机抽一个

BeautifulSoup包介绍

一个灵活又方便的网页解析库,处理高效,支持多种解析器。可以实现网页信息的抓取

解析器

用来解析网页页面的元素,BeautifulSoup支持多种html解析器,这里不讨论各个解析器的区别了,因为我也不懂,百度上找大神吧!咱们就用python自带的解析器吧————html.parser

上面的介绍三种BeautifulSoup的提取方式,自行选择一种熟悉,基本就能提取网页上大部分内容了。为啥不是全部呢????O(∩_∩)O哈哈~

部分内容可能需要用到正则表达式,这部份我也不懂,只知道怎么用正则表达式,至于怎么写出正则表达式,百度呗!!

另外有部分贼恶心的网站,对页面的一些文字或者数字做了处理,用图片/图标替换了,哎!!!这种就不好办啊!!!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181219G0NX7F00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券