前言
这次咱们来玩一个在Python中很牛叉的爬虫框架——Scrapy。
scrapy 介绍
标准介绍
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。...USER_AGENT配置
User-Agent是一个最基本的请求必须带的参数,如果这个带的不是正常的,必定爬取不了。...小试牛刀之获取糗事百科段子段子链接
准备工作做好了,那就开始吧!!!...此处我们需要有xpath的语法基础,其实挺简单的,没有基础的记得百度一下,其实不百度也没关系,跟着学,大概能看懂
实现功能
通过xpath获取每个段子下的a标签连接
注:审查元素和按住crtl+f搜索内容和写...确定标题和内容的xpath定位之后,我们在python代码中实现一下。
注:但是先解决一个问题,详情页属于第二次调用了,所以我们也需要进行调用第二次,再编写代码
?