一个猎头的Python学习笔记01

直接来点儿干货吧

对于Python开发环境的安装,语言规则的熟悉过程就不说了,绝大部分Python教材都会讲到,简单说一下我目前使用的版本: Python使用最新的3.6版本,开发环境使用的是Pycharm 2017。基于Windows7环境,Mysql5.3,pip3 自动安装了pymysql,BeautifulSoup等模块。

第一周,通过几十行代码实现了猎聘网人选搜索记录的获取。

import requests

from bs4 import BeautifulSoup

import re

import pymysql.cursors

cookie = '''_MyCookies'''

header = {

'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36',

'Connection': 'keep-alive',

'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

'Cookie': cookie

}

url = https://h.liepin.com/search/soResume/

d = {'company': '乐视', 'keys': '', 'titleKeys': '', 'wantdqs': '010', 'dqs': '010', 'pageSize': '50'}

r = requests.post(url, headers=header, data=d)

r.encoding = 'utf-8'

soup = BeautifulSoup(r.text, 'lxml')

tr1 = soup.select('tr[class^=table-list-peo]')

tr2 = soup.select('tr[class^=table-list-info]')

print(tr1)

print(tr2)

以上代码可以获取如下红框中的内容。

相当于用猎聘搜索乐视公司,且目前所在地区和期望地区都是北京的人员名单。

以上代码很简单,出乎意料的简单!

第二周,我尝试解析网页代码并把搜索结果入库。首先我按照获取的内容用Mysql建了个数据表,结构如下:

表格中前面的数据项对应的是搜索结果的内容,后面的“入库时间”和“搜索条件”为以后做数据分析做准备,这个以后再讲。

通过页面的搜索结果我们可以看到,目前猎聘网上“乐视”公司在北京地区的人选有2666人(几天之前我记得应该有2680人,这个数据也很重要,可以监测某公司或某行业的人员流动情况,这个应用点以后再说),每页50人共有54页,获取这些内容后我们就可以将所有的网页爬完,然后将这2666人的简要信息写入我建的数据库了。

代码部分不再贴了,简单说就是页面的分析爬取和页面元素的解析入库。最终结果汇报一下:

这是爬完入库的数据表,2666的爬取入库需要大约75秒(单线程)。有了这个数据表,我们对目标公司人选的选择就更方便了,我可以按照任意字段排序,也可以在Mysql里面按照不同字段搜索。

第一阶段的任务基本完成了,这两周的劳动成果是,我目前可以对目标公司或特定行业进行搜索整理存入自己的数据库,至于数据的使用可以非常灵活,最简单的用法可以对目标公司信息进行跟踪,可以对比人选变化等等。

下一步任务是根据简要简历库中保存的链接爬取完整简历,完善简历信息。最终目的是通过机器学习进行自动推荐,路漫漫其修远......

(作者王军先生:70后,是广仕缘猎头高级顾问兼合伙人,有着丰富的IT互联网技术从业和创业经历,擅长IT互联网和金融行业的产品技术和研发类高端人群的猎寻和甄别)

本文来自企鹅号 - 广仕缘媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据和云计算技术

元数据概念

刘耀铭同学元数据系列作品的第一篇,大家支持! 其他元数据相关系列文章: 基于元数据驱动的ETL Hive 元数据表结构详解 1、 元数据是描述其他数据的数据(...

39111
来自专栏SDNLAB

OpenStack网络基础

OpenStack在这几年风生水起。随着核心模块稳定性的提高,OpenStack已经有了很多大规模商用的案例,所有与云相关的,无论是商用软件还是开源平台都在积极...

4725
来自专栏EAWorld

用校车系统理解事件驱动架构

很小的时候,我就被系统迷住了。尤其是一个系统的优雅性最令我着迷。完美的执行、可预见性,一如校车系统的天才创意。

1337
来自专栏SDNLAB

OpenStack Neutron之OpenStack网络基础

OpenStack在这几年风生水起。随着核心模块稳定性的提高,OpenStack已经有了很多大规模商用的案例,所有与云相关的,无论是商用软件还是开源平台都在积极...

3998
来自专栏Python攻城狮

Python采集微博热评进行情感分析祝你狗年脱单

如果自己需要爬(cai)虫(ji)的数据量比较大,为了防止被网站封Ip,可以分时段爬取,另外对于爬到的数据一般是用来存储数据库,这就需要对数据进行去重处理,记录...

1392
来自专栏SDNLAB

SDN实战团分享(二十八):VMware NSX技术分享

Vmware是虚拟化技术的先驱者,其强大的计算虚拟化产品已经深入了各行各业的日常使用中。当然,如果没有网络虚拟化的支撑,计算的虚拟化是根本玩不转的。 Vmwar...

5165
来自专栏大数据文摘

业界 | 除了R、Python,还有这些重要的数据科学工具

在你向一些大神请教的时候,他可能也会推荐你学习这两个高级编程语言,然后顺便在推荐你了解一下SQL以及Math。如果讲究点的,可能还会传授你一些Spark、AWS...

1232
来自专栏优启梦

分析网站关键词排名下降的五种原因!

  网站长时间的运营就会产生一些怠慢、疏忽的情况发生,当我们疏忽或者怠慢的时候,无孔不入的“苍蝇”就会盯住我们的网站,会让我们的网站关键词排名突然下降,这个时...

4317
来自专栏AI科技大本营的专栏

周末大料|CMU研发数据库调优AI,水平超DBA老炮

这个周末,最不开心的应该是优秀的数据库管理员了。 这些优秀的数据库管理员(以下简称数据库管理员为DBA),原本可以靠自己的本事,享受高薪,可是,好景不长了,因为...

4096
来自专栏FreeBuf

iOS 11相机BUG,恐让用户误入恶意网站

iOS从正式版发布到现在已经经历了好几个小版本的更新,主要还是在BUG修复和增强稳定性上。单最近,有安全机构发现了iOS 11中一个新的可被利用的漏洞,容易让用...

1144

扫码关注云+社区

领取腾讯云代金券