前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >爬虫知乎你的择偶标准是什么|什么人在找对象?

爬虫知乎你的择偶标准是什么|什么人在找对象?

作者头像
HuangWeiAI
发布2019-11-15 20:49:26
1K0
发布2019-11-15 20:49:26
举报
文章被收录于专栏:浊酒清味浊酒清味

我们试图用大数据分析的方法来看看是怎么样的一个群体在知乎上面找对象。

知乎上关于择偶标准问题众多

数据爬取

我们这次选择的问题是一个相亲问题中最大的一个:

坐拥7万+关注量以及1500万+浏览量。

按照惯例,获得问题id,逐步爬取每个答案。

由于知乎提供的用户性别不够准确,比如很多女生用男性账号,我们结合回答内容会适当修改知乎提供的性别结果

然后,我们根据回答内容,具体分析得到用户的身高体重以及年龄

分析结果

这次爬虫一共获得29965个回答;

去除回答字数少于30的无效答案,一共获得26366个有效回答。

其中匿名用户占据大半,剩下男生女生数目差不多:

我们一共获得了11680条年龄数据,分布如下:

可以看出来这是一个高斯分布,18-20岁以及30-48岁的人数占少数。20-30岁为主力军,其中年龄最多的三个是24,25,26,可谓是人生的最黄金年龄。

我们获得平均年龄为25.5岁,大家都很年轻啊!

我们也获得了大家的身高分布:

这个身高并没有一个明显的高斯,或者两个高斯分布累加的现象,我们下一步会将匿名用户的回答仔细分析来获取其有效性别,从而获得男生女生的身高数据,希望可以获得两个独立高斯分布。

关于知乎上这个择偶标准数据分析,我们会后续再出一篇文章,到时候代码也会在github上面公布。

参考代码:

https://github.com/leeyoshinari/soulmate

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-11-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python与机器学习之路 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档