使用Python抓取婚恋网用户数据并用决策树生成自己择偶观

最近,当我在阅读《机器学习实战》时,我有一个想法,我不仅可以加深对书籍的理解,还可以在github中流行。仅仅在《决策树》一章中,书中的理论和实例让我感到,在审视学术资格之后,在阅读学术资格之后看到收入,理论和选择对象不再合适。如果你能从交友网站上抓取女性的数据,手动给他们贴上标签,然后根据这些数据建立决策树,你就找不到自己的择偶模型。GITHUB项目:华天搞笑,以下是详细的说明。

数据爬行

以前爬上世纪边缘的类似数据,总体感觉是上面的用户数据要么基本上没有填写,要么一眼就很假,一些老的驱动程序周围的建议可以在华天网络上看到,数据质量确实高得多,唯一的缺点是如果上述数据没有爬行,则搜索用户的API需要登录Record,并且仅显示超过30个用户的信息。正如我需要的数据很少,我把搜索条件分成非常精细的,每次的数据都很少,但最终汇总的数量是相当可观的,最终在上海获得了22-27岁的总共2000个用户数据。在spider.py中填写用户名和密码,并直接运行该文件来抓取数据,因为数据量小,可以快速运行,存储在mongodb中的数据如下:

爬虫使用的工具是请求,过程非常简单。首先,发送登陆请求获取cookie,然后调用搜索API获取数据。获得的数据为JSON格式,无需直接转换存储MUGODB。非常方便。唯一需要考虑的是华天搜索API接口,它也是邮递方式。没有专业标准。稍微介绍一下如何用请求获取cookie、用会话构建会话对象、用此对象发送登录请求,随后的请求将自动带来登录返回cookie,这非常简单。

标签用户

由于决策树属于有监督的学习,它需要给定一个标签,因此需要根据用户的外表、年龄、教育程度等判断维度给出一个标签,最终的决策树能够在一定程度上反映他们自己的择偶标准。女性的标签简单而粗鲁。只有两种标签,满意和不满。有兴趣的学生可以根据实际情况设置更多的标签,如优秀、通用、备胎、不合格等。因为外观是选择对象过程中不可缺少的元素,所以量化外观是必不可少的,因为没有相关的工具根据头进行评分,只有个人的主观量化,使用非常流行的十种系统。

为了提高标签的效率,特写了一个桌面窗口。运行标记。Py和结果如下。(tkinter是一个陷阱,我已经有足够的时间来调优代码并多次查看整个数据集,但是实际使用它很有趣。)

注:因为许多用户刚刚开始只看到头部、年龄、身高、薪水、教育等五个维度,所以整个过程只参照这五个维度进行评价,下面的决策树也是基于这五个维度的。

训练数据

决策树

在机器学习中,决策树是一种预测模型,它表示对象属性与对象值之间的映射关系。树中的每个节点表示一个对象,每个分叉路径表示一个可能的属性值,并且每个叶节点对应于由从根节点到叶节点的路径表示的对象的值。决策树只有一个输出,如果需要复杂的输出,可以建立独立的决策树来处理不同的输出。从数据生成决策树的机器学习技术称为决策树学习,俗称决策树。简言之,它是一种基于分类和训练的预测树,根据已知信息对未来进行预测和分类。

怎么快速学python,有什么方法,打算深入了解这个行业的朋友,可以加python学习群:399288541,邀请码:(云曦)不管你是小白还是大牛,小编我都欢迎,不定期分享干货,包括小编自己整理的一份2018最新的python资料和0基础入门教程,欢迎初学和进阶中的小伙伴。

每天晚上20:00我都会开直播给大家分享python知识和路线方法,群里会不定期更新最新的教程和学习方法,大家都是学习python的,或是转行,或是大学生,还有工作中想提升自己能力的python党,如果你是正在学习python的小伙伴可以加入学习。

最后祝所有程序员都能够走上人生巅峰,让代码将梦想照进现实,非常适合新手学习,有不懂的问题可以随时问我,工作不忙的时候希望可以给大家解惑。

结果表明

代码是指“机器学习实践”,并对现实进行一些优化调整。它与原始代码不完全相同。运行训练.PY可以显示如下结果:

因为线路非常拥挤,需要很长时间才能达到效果。到目前为止,我已经明确表示,我是一个有美貌的派对,有美貌的传球,有低沉的脸的忽视,还有不太高或太低的考虑。感兴趣的学生可以自己尝试一下。

PS1:实际上,我不想承认我是外观协会的成员。

PS2:因为标记过程是随意的,所以部分是不准确的。

PS3:没有计划相亲。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180927A0UF6400?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券