专栏首页Python绿色通道用Python来找合适的妹子(一)

用Python来找合适的妹子(一)

用Python做有趣的事情

时间真的有点仓促,匆匆忙忙撸完这篇文章.

虽然今天是情人节,但还是要关心一下单身狗们,帮助他们俩脱单。

古人云:知己知彼,百战不殆. 好好去了解一下妹子们的内心想法,早日脱单!

这次我在一个某知名婚恋网站,抓取了一些数据,对她们的内心读白进行分析.

我这次筛选条件:女性,年龄20-30,学历本科,就这些条件.

3000条妹子内心读白词云如下:

放心好了,她们都是追求精神满足而非物质,大部分都是要找生命中的另一半,那她们的另一半会是你吗?

完整代码

# coding=utf-8


from selenium import webdriver
import time
from lxml import etree
import sys

reload(sys)
sys.setdefaultencoding('utf-8')

"""
PEP8 Python编程规范
https://www.douban.com/note/134971609/

"""
# 获取浏览器驱动
driver = webdriver.Firefox()
driver.maximize_window()
webUrl = 'http://www.lovewzly.com/jiaoyou.html'
driver.get(webUrl)

# 等15秒,我来手动做一下筛选条件。,女性,21-30左右,学历本科,\
# 本来想通过js代码,来自动执行,但无奈对js真的不熟,也没有太多时间去整了,凑合看看.
time.sleep(15)

"""
下拉滚动条,从1开始到3结束 分2次加载完每页数据

"""
while True:

    for i in range(1, 20):
        height = 1000 * i  # 每次滑动20000像素
        strword = "window.scrollBy(0," + str(height) + ")"
        driver.execute_script(strword)
        time.sleep(3)

        s = etree.HTML(driver.page_source)
        selectors = s.xpath('//*[@id="hibox"]/table/tbody/tr/td/div')

        with open('内心读白.txt', 'a') as f:
            for selector in selectors:
                img = selector.xpath('./div[1]/img/@src')
                nick = selector.xpath('./div[2]/p[1]/span/text()')
                age = selector.xpath('./div[2]/p[2]/span[1]/text()')
                height = selector.xpath('./div[2]/p[2]/span[2]/text()')
                address = selector.xpath('./div[2]/p[2]/span[3]/text()')
                heart = selector.xpath('./div[2]/p[3]/text()')

                img = img[0] if len(img) > 0 else ''
                nick = nick[0] if len(nick) > 0 else ''
                age = age[0] if len(age) > 0 else ''
                height = height[0] if len(height) > 0 else ''
                address = address[0] if len(address) > 0 else ''
                heart = heart[0] if len(heart) > 0 else ''
                print nick, age, height, address, heart, img
                f.write(heart)

生成词云的代码之前的文章里面有,这里就不展示了,自行前往查阅!

时间确实太仓促了,我想做一个更好一点,但时间不够了

下一步准备:

  • 我们可以输入自己的需求,然后进行筛选.
  • 把妹子照片,身高,籍贯,收入,学历,摘偶要求,都一起配上,并配上她们的链接,让单身狗们有目标的找妹子!哈哈

本文分享自微信公众号 - Python绿色通道(Future_coder),作者:by

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-02-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 实战篇 | 用Python来找合适的妹子

    放心好了,她们都是追求精神满足而非物质,大部分都是要找生命中的另一半,那她们的另一半会是你吗?

    龙哥
  • 数据分析篇 | Pandas基础用法6【完结篇】

    大多数情况下,pandas 使用 Numpy 数组、Series 或 DataFrame 里某列的数据类型。Numpy 支持 float、int、bool、ti...

    龙哥
  • 爬虫篇 | Python使用正则来爬取豆瓣图书数据

    最近整理一个爬虫系列方面的文章,不管大家的基础如何,我从头开始整一个爬虫系列方面的文章,让大家循序渐进的学习爬虫,小白也没有学习障碍.

    龙哥
  • 实战篇 | 用Python来找合适的妹子

    放心好了,她们都是追求精神满足而非物质,大部分都是要找生命中的另一半,那她们的另一半会是你吗?

    龙哥
  • CSS中height:100%和height:inherit的异同

    2. 大多数情况作用是一样的 除去兼容性,大多数情况下,两者作用是一样的,甚至都很难想出不一样的理由。

    bear_fish
  • css基础教程之布局属性

    collapse:主要用来隐藏表格的行或列。隐藏的行或列能够被其他内容使用。对于表格外的其他对象,其作用等同于hidden。

    老雷PHP全栈开发
  • DeepMind AI只需要4个小时的自我训练即可成为国际象棋霸主

    图片来自网络 我们在10月份了解到了DeepMind主导的游戏AI 。其新的神经网络不断完善自己去击败了先期优点,在感知方面,为了实现自我训练的成功,人工智能只...

    企鹅号小编
  • DeepMind AI只需要4个小时的自我训练即可成为国际象棋霸主

    图片来自网络 我们在10月份了解到了DeepMind主导的游戏AI 。其新的神经网络不断完善自己去击败了先期优点,在感知方面,为了实现自我训练的成功,人工智能只...

    企鹅号小编
  • 基于以太坊搭建私有链

    目前业界关于区块链尚无权威统一的定义。区块链简单来说,是一种链式的数据结构,区块之间按照时间顺序连接,利用密码学方式保证数据不易串改和不易伪造,并在网络所有节点...

    字节流动
  • 大神齐聚,算法大赛复赛晋级名单揭晓!

    6月23日12:00:00,由腾讯广告携手腾讯云、腾讯大数据、腾讯招聘及腾讯高校合作等合作伙伴联袂举办的2020腾讯广告算法大赛正式进入复赛阶段。

    腾讯智能钛AI开发者

扫码关注云+社区

领取腾讯云代金券