【Python智爬4】简单爬虫

本篇主要介绍简单爬虫,爬取网页,保存到本地。

1、爬虫基本流程

1.1、发起请求

Python使用http库向要爬取的目标网站发起请求,即发送一个Request

Request包含:请求头、请求体等

1.2、获取响应内容

如果服务器能正常响应,则会得到一个Response

Response包含:html,json,图片,视频等

1.3、解析内容

通过相应的库,解析对应的数据

解析方式:通过正则表达式(RE模块),第三方解析库如Beautifulsoup,pyquery等、json库

1.4、保存数据

把数据保存到本地文件、本地数据库等。

2、爬取百度首页

使用的三方库为urllib,我这边直接安装的是urllib3

示例:

这样就可以把百度首页爬取下来,保存到本地。

3、完整版代码

利用我们之前学过的知识,完整版代码如下:

3.1 先封装一个类

先在文件下创建一个worm工程的文件夹,创建一个htmldownload.py文件

这个类下面有一个downLoad方法,可以返回html内容。

3.2 引入类方法

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181025G0D5A400?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券