前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一个抓取豆瓣图书的开源爬虫的详细步骤

一个抓取豆瓣图书的开源爬虫的详细步骤

作者头像
Python中文社区
发布2018-01-31 12:43:17
2.4K0
发布2018-01-31 12:43:17
举报
文章被收录于专栏:Python中文社区Python中文社区

简介

基于numpy和bs4的豆瓣图书爬虫,可以分类爬取豆瓣读书300多万本图书信息,包括标题、作者、定价、页数、出版信息等

github地址:https://github.com/lanbing510/DouBanSpider 项目作者:lanbing510

1 可以爬下豆瓣读书标签下的所有图书

2 按评分排名依次存储

3 存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet

4 采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封

步骤

1、安装pyenv后激活环境,并clone代码到本地环境,可参看Python中文社区知乎专栏文章:基于pyenv和virtualenv搭建python多版本虚拟环境

2、查看代码文档,vim打开doubanSpider.py,可以看出需要安装的模块有numpy、bs4等,用pip命令依次安装:pip install numpy bs4,标红色部分为处理编码问题。

3、向下我们可以看到为了针对反爬虫,需要伪装浏览器头部,以及设置抓取频率,主要抓取内容为图书标题、简介等

4、部署好环境,安装必需的模块后即可用python命令直接执行文件

代码语言:javascript
复制
python doubanSpider.py

5、查看抓取的内容

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-10-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python中文社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 简介
  • 步骤
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档