专栏首页编程python3.6爬虫之豆瓣小王子详解(一)

python3.6爬虫之豆瓣小王子详解(一)

目标:抓取豆瓣小王子读者的书评,并保存于本地excel。

爬虫的流程:发送请求——获得页面——解析页面——抽取并储存内容。

我们第一个案例便采用:requests(获取)——xpath(解析)——pandas(储存)

废话不多说,先上结果与代码:

# -*- coding: utf-8 -*- #告知用utf-8编码

#获取

importrequests#引入requests

r = requests.get('https://book.douban.com/subject/1084336/comments/hot?p=1')#用get方法获取网页

html = r.text#把内容赋值给html

#解析

fromlxmlimportetree#引入lxml的etree

s = etree.HTML(html)#把html转换成lxml可解析的对象

text_list = s.xpath('//*[@id="comments"]/ul/li/div[2]/p/text()')#解析这一页的text

#储存

importpandasaspd#引入pandas,简写成pd

df = pd.DataFrame(text_list)#定义DataFrame对象并赋给df

df.to_excel('D://comments.xlsx')#把结果输出为csv格式,存在D盘

不超过10行代码,是不是很简单呢?

现重点讲解解析部分xpath的用法:

首先鼠标左键选取到需要爬取的书评

右键,点击“检查”,在“Elements”下找到定位到所需数据

右键——Copy——Copy Xpath,即可完成Xpath的复制

示例:

总结:

1:Python爬虫,上手其实很简单啦。

2:推荐新手使用pycharm编辑器,界面实在太友好了。

3:想要实现这个爬取,首先,你要安装request、xpath、pandas等第三方库哦,网上很多安装教程,在这我就不累赘了。

4:每个软件、第三方库内容太多,我们不可能都去学,所以我们只需要去学习我们当前需要的知识就Ok了(学不在多,在于消化)。

下一篇文章,将扩大难度,抓取小王子书评前100页的内容,大家可以提前思考下,怎样实现翻页哦。

有不清楚的地方,大家可以留言,点赞哦,我看到了,会第一时间回复你。

本文来自企鹅号 - 全球大搜罗媒体

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 分享经济时代,你参与了吗?

    当我们在传统的思维里苦苦挣扎,别人已经开始了用分享经济学+倍增学原理+大数据+移动互联网+的思维在奔跑了!改变思维模式是当下所有人需要努力的方向! 分享经济在全...

    企鹅号小编
  • 机器学习之白话adaboost元算法

    阅读本文大约需要5分钟 作为(曾)被认为两大最好的监督分类算法之一的adaboost元算法(另一个为前几节介绍过的SVM算法),该算法以其简单的思想解决复杂的分...

    企鹅号小编
  • 从概念到成功落地,技术大咖分享云基础架构最前端技术

    “ “第七届中国云计算标准和应用大会”作为国内云计算领域的重要会议之一,得到了国家工信部、国标委等指导单位的高度重视和大力支持,旨在对中国云计算产业标准制定与应...

    企鹅号小编
  • 五分钟学会工厂模式,大大提升你的协作效率!

    大家好,在上篇文章当中我们给大家分享了抽象工厂这个设计模式。在介绍抽象工厂的时候,我们也对比了和工厂模式的区别,所以今天我们来看一下工厂模式的工作原理。

    TechFlow-承志
  • 利用jquery实现当前时间动态显示

    菲宇
  • 英特尔CPU漏洞再度袭来:研究员发现全新边信道攻击方法BranchScope

    近日,美国四所大学的一组学者发现了全新的边信道攻击方法,他们能够利用现代CPU中的推测执行功能来获取用户CPU数据,泄漏敏感数据和数据安全边界。这种边信道攻击方...

    FB客服
  • Microsoft Azure部署MYSQL-MMM(3)配置MYSQL-MMM

    在db1、db2、db3安装MMM所需要的Perl模块(所有服务器)执行该脚本,然后 yum -y install mysql-mmm-agent来安装MMM ...

    李珣
  • emlog侧边栏添加新浪图床上传样式及接口

    Youngxj
  • cssjshtml vue.js 三元表达式

    葫芦
  • 经典面试题-XML的解析有哪几种方式,并用其中一种写出解析XML实例

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明...

    cwl_java

扫码关注云+社区

领取腾讯云代金券