爬虫练习-豆瓣读书

文章来源：企鹅号 - 钟胖胖的记事本

昨晚使用不熟悉的xpath语法解析百度新闻页面碰到了好多坑，今天继续通过简单的豆瓣图书进行练习

1.分析页面

进入豆瓣首页在第一行导航栏找到

进入页面之后发现有很多内容，由于豆瓣没有反爬措施，所以多抓取些数据

大致浏览后发现应该能通过标签查找到全部图书，找到点击

浏览页面后大致可以确定这个入口是合适的一个入口

2.分析入口页面

打开浏览器自带的开发者模式找到其中一个标签：

点击发现它的url就是域名和的组合

3.分析tag页面

进入页面之后发现一本书大概分为8个关键部分：,,,,,,,

4.开始

首先导入需要的库

这次使用类的方式实现

初始化类：

获取tag列表

由于数据比较大且有分析价值，对数据进行持久化操作(存入数据库)

使用python操作mysql数据库

首先新建如下库和表

将八项重要内容写入数据库

整个类：

开始调用：

由于全部图书有点多，使用线程池加快点速度并记录下耗时

耗时1021s，相当于17分钟速度还有待提升

综上总共导入的模块如下：

相关快讯