前言
这次咱们来玩一个在Python中很牛叉的爬虫框架——Scrapy。
scrapy 介绍
标准介绍
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。...此处我们需要有xpath的语法基础,其实挺简单的,没有基础的记得百度一下,其实不百度也没关系,跟着学,大概能看懂
实现功能
通过xpath获取每个段子下的a标签连接
注:审查元素和按住crtl+f搜索内容和写...这样,我们就定位了一个个a标签,只至少在控制台操作是没问题的,那么,我们使用Python代码操作一下吧
?...获取详情页内容
在上述,我们成功的获取到了每个段子的链接,但是会发现有的段子是不全的,需要进入进入详情页才能看到所以段子内容,那我们就使用爬虫来操作一下吧。
我们定义一下标题和内容。
?...确定标题和内容的xpath定位之后,我们在python代码中实现一下。
注:但是先解决一个问题,详情页属于第二次调用了,所以我们也需要进行调用第二次,再编写代码
?