昨晚使用不熟悉的xpath语法解析百度新闻页面碰到了好多坑,今天继续通过简单的豆瓣图书进行练习
1.分析页面
进入豆瓣首页在第一行导航栏找到
进入页面之后发现有很多内容,由于豆瓣没有反爬措施,所以多抓取些数据
大致浏览后发现应该能通过标签查找到全部图书,找到点击
浏览页面后大致可以确定这个入口是合适的一个入口
2.分析入口页面
打开浏览器自带的开发者模式找到其中一个标签:
点击发现它的url就是域名和的组合
3.分析tag页面
进入页面之后发现一本书大概分为8个关键部分:,,,,,,,
4.开始
首先导入需要的库
这次使用类的方式实现
初始化类:
获取tag列表
由于数据比较大且有分析价值,对数据进行持久化操作(存入数据库)
使用python操作mysql数据库
首先新建如下库和表
将八项重要内容写入数据库
整个类:
开始调用:
由于全部图书有点多,使用线程池加快点速度并记录下耗时
耗时1021s,相当于17分钟速度还有待提升
综上总共导入的模块如下:
领取专属 10元无门槛券
私享最新 技术干货