手机网段信息抓取

文章来源：企鹅号 - Pythoner成长记录

最近领导布置了一个小作业，没事就来玩玩。

第一级页面：

第二级页面：

第三级页面：

Scrapy

首先，还是启动一个项目：

scrapy startprojecthaoma

接着，定义个叫做“haoma”的爬虫：

第一级页面

结构解析：

所有网址都是在dd标签下的a标签中。

调试页面shell：

进入调试页面：

提取网址关键字：

使用urljoin合并：

代码如下：

第二级界面

结构解析：

还是在dd标签下的a标签中。我估计这个网址的维护者也是随性，怎么简单怎么来，那后面就是一样的操作了。

使用urljoin合并：

代码如下：

第三级界面

表格抓取：

结构解析：

只有号码段在a标签下，其他都是在td标签之下。

号码段关键字：

其他字段：

最后一个字段：

代码如下：

因为是一个表格，所以需要遍历每一个tr标签，然后将里面的内容赋值给变量。最后爬下来的数据会有一个空行，是因为标题的内容没有抓下来。

这个网址没有反爬虫机制，不用设置中间件。所以这个爬虫写完，咱们只配置了url.py 和 items.py，其他什么都没动。

存放在CSV文件中：

scrapy crawl haoma -o haoma2.csv

截图展示：

非常简单，自己动手试试，有问题留言O。

相关快讯