爬虫练习-豆瓣读书

昨晚使用不熟悉的xpath语法解析百度新闻页面碰到了好多坑,今天继续通过简单的豆瓣图书进行练习

1.分析页面

进入豆瓣首页在第一行导航栏找到

进入页面之后发现有很多内容,由于豆瓣没有反爬措施,所以多抓取些数据

大致浏览后发现应该能通过标签查找到全部图书,找到点击

浏览页面后大致可以确定这个入口是合适的一个入口

2.分析入口页面

打开浏览器自带的开发者模式找到其中一个标签:

点击发现它的url就是域名和的组合

3.分析tag页面

进入页面之后发现一本书大概分为8个关键部分:,,,,,,,

4.开始

首先导入需要的库

这次使用类的方式实现

初始化类:

获取tag列表

由于数据比较大且有分析价值,对数据进行持久化操作(存入数据库)

使用python操作mysql数据库

首先新建如下库和表

将八项重要内容写入数据库

整个类:

开始调用:

由于全部图书有点多,使用线程池加快点速度并记录下耗时

耗时1021s,相当于17分钟速度还有待提升

综上总共导入的模块如下:

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180319G1U7FW00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

同媒体快讯

扫码关注云+社区

领取腾讯云代金券