首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

手机网段信息抓取

最近领导布置了一个小作业,没事就来玩玩。

第一级页面

第二级页面

第三级页面

Scrapy

首先,还是启动一个项目:

scrapy startprojecthaoma

接着,定义个叫做“haoma”的爬虫:

第一级页面

结构解析:

所有网址都是在dd标签下的a标签中。

调试页面shell:

进入调试页面:

提取网址关键字:

使用urljoin合并:

代码如下:

第二级界面

结构解析:

还是在dd标签下的a标签中。我估计这个网址的维护者也是随性,怎么简单怎么来,那后面就是一样的操作了。

使用urljoin合并:

代码如下:

第三级界面

表格抓取:

结构解析:

只有号码段在a标签下,其他都是在td标签之下。

号码段关键字:

其他字段:

最后一个字段:

代码如下:

因为是一个表格,所以需要遍历每一个tr标签,然后将里面的内容赋值给变量。最后爬下来的数据会有一个空行,是因为标题的内容没有抓下来。

这个网址没有反爬虫机制,不用设置中间件。所以这个爬虫写完,咱们只配置了url.py 和 items.py,其他什么都没动。

存放在CSV文件中:

scrapy crawl haoma -o haoma2.csv

截图展示:

非常简单,自己动手试试,有问题留言O。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180115G07F7S00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券