最近领导布置了一个小作业,没事就来玩玩。
第一级页面:
第二级页面:
第三级页面:
Scrapy
首先,还是启动一个项目:
scrapy startprojecthaoma
接着,定义个叫做“haoma”的爬虫:
第一级页面
结构解析:
所有网址都是在dd标签下的a标签中。
调试页面shell:
进入调试页面:
提取网址关键字:
使用urljoin合并:
代码如下:
第二级界面
结构解析:
还是在dd标签下的a标签中。我估计这个网址的维护者也是随性,怎么简单怎么来,那后面就是一样的操作了。
使用urljoin合并:
代码如下:
第三级界面
表格抓取:
结构解析:
只有号码段在a标签下,其他都是在td标签之下。
号码段关键字:
其他字段:
最后一个字段:
代码如下:
因为是一个表格,所以需要遍历每一个tr标签,然后将里面的内容赋值给变量。最后爬下来的数据会有一个空行,是因为标题的内容没有抓下来。
这个网址没有反爬虫机制,不用设置中间件。所以这个爬虫写完,咱们只配置了url.py 和 items.py,其他什么都没动。
存放在CSV文件中:
scrapy crawl haoma -o haoma2.csv
截图展示:
非常简单,自己动手试试,有问题留言O。
领取专属 10元无门槛券
私享最新 技术干货