首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

webmagic爬取实战之爬取保险经纪人信息

介绍

小小根据上次爬取经验,发现爬取的时候,信息不太完善,这次针对手机页面进行爬取。

查看手机页面

相对于pc端口的页面,手机端的页面更容易爬取。通过网络信息,可以查看到是这个请求发起的网络信息。查看相应的参数。

通过查看相应的参数,可以知道发送的json如下

Search.Pagesize: 10

Search.Pageindex: 2

Search.CompSymbol:

Search.CitySymbol: BeiJing

Search.ProvinceSymbol: Beijing

换城市的时候,发送该请求,可以看到使用的是拼音的简称。

发送的json如下

Search.Pagesize: 10

Search.Pageindex: 2

Search.CompSymbol:

Search.CitySymbol: Dongguan

Search.ProvinceSymbol: Guangdong

这样就完成了最基本的json相关的数据。

postman进行基本测试

这里使用postman实现基本测试。发送的url如下

经过测试,这个接口可以使用。

编写爬虫url爬取相关url链接

查询获取url的基本方法

这里查询获取url的基本方法,由于沃宝全是顶级的cn域名,所以这里只能采用获取所有连接+正则的方式进行匹配。匹配效果如下通过发送链接,可以看到有的地址没有。查询postman,查看相关的发送请求。

通过这样,就可以看到需要添加以下的三个参数。

webmagic 添加相关的参数

添加相关的参数以后发现请求失败。如图。

这里由于请求出错,所以根据问题进行排查。发现需要添加三个请求头。

添加请求头

使用postman挨个测试接口。

添加请求头

问题依旧呈现。

搜索问题

问题搜索下来说是去掉参数Content-Length 的问题。重新再次测试。

夜晚已经很深了,明天博主将会继续进行爬取对头部信息进行测试

小明菜市场

推荐阅读

●实战 | WebMagic 爬取某保险经纪人网站经纪人列表之网站列表爬取

●实战 | WebMagic 实现分布式爬虫

●实记 | MongoDB 多表连接查询

●新知 | MongoDB 账号管理

●方案 | Mongodb 高可用落地方案

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200812A013CW00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券