学习
实践
活动
工具
TVP
写文章

趁头发还未掉光,记录一次利用Python抓取相亲网站的美女信息!

背景:

老妈天天像催债一样催我娶媳妇,有没有对象呀,头都快秃完了,没对象赶紧回来相亲吧.....

都是乡里乡亲的,叫我怎么好意思相亲,每次都是简单的应付几句,最近无意中看到了一些相亲网的广告,我就动了心思,想着能不能把数据都用python爬虫获取下来,然后分析下,制造一些偶然。

当然,对于纯粹的相亲,我还是很抵制的。下面记录一下这次抓取信息的过程。

欲爬取的网站:

情人岛

欲抓取的数据:

地区

用户详细信息

步骤:

打开网页分析

这些空格都是我们要填写的对象信息,先提交一次查看网页的反应。

把完整的URL复制下来,可以看到是一个字符形式,从里面的那些参数的命名能够看得出来,需要提交的相关参数和受控制所对应的元素。

这些就涉及到post的知识点了,不过都是些简单的东西罢了,我举个例子:

网页上显示一个性别,那么我们填写男或者女,那么网页内的内容就是一个什么样的呢?同样有个标签代表着性别,例:sex = 性别

,同时还有男女各有一个标签,man = 1、women = 2,好了不多说了。

这些都是我们第一次操作可以从url中提取到的信息,然后再尝试能不能少提交某个参数得到其它不同的反馈,把ddl_Area删除得到修改后的URL,同样能够获取相关数据。

测试一下翻页情况:

我们开始删除的东西并没有再次出现,然后多出了一个箭头指向的信息。

接着再点到用户信息去查看我们具体的需要信息,观察URL变化,尝试能否获取有用信息。

点开几个用户,查看url后发现后面全是/数字.html,那么,我们返回到上一个页面,打开审查元素,相对应的四个数字,都在当前页面是否出现,以及出现的位置。

利用正则表达式写出来 ,一会写代码的时候再放进去验证效果!

接着去用户页面看看需要用户的那些信息:

审查元素查看:

得到下图所示信息:

开始编写Python代码:

代码大概就四十来行,自己照着敲试试,祝各位趁头发还在,早日找到自己的另一半!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180726A0VBDI00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券