2分钟完成30*15页拉勾网职位需求关键词的抓取

不同的语言,有它们各自擅长的应用场景,选择一门适合自己的语言需要勇气与毅力。

而当你下定决心要在甄选的语言上一条道走到黑的时候,孰不知,选择才刚刚开始。

一门编程语言往往有许多分支,每一个分支都需要掌握不同的技能,我们时常会感到困惑:怎么才能较为准确的分配技能点?

需求决定选择,从招聘方的角度来观察,看看我们未来的金主需要现在的你我掌握什么技能,或许能够从繁多的技术分支中受到启发:

一、获取职位需求数据

通过观察可以发现,拉勾网的职位页面详情是由http://www.lagou.com/jobs/+*****(PositionId).html组成,而PositionId可以通过分析Json的XHR获得。而红框里的职位描述内容是我们要抓取的数据。

知道了数据的源头,接下来就按照常规步骤包装Headers,提交FormData来获取反馈数据。

获取PositionId列表所在页面:

 1 # 获取职位的查询页面(参数分别为网址,当前页面数,关键词) 2 def get_page(url, pn, keyword): 3     headers = { 4         'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ' 5                       'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3', 6         'Host': 'www.lagou.com', 7         'Connection': 'keep-alive', 8         'Origin': 'http://www.lagou.com' 9         }10     if pn == 1:11         boo = 'true'12     else:13         boo = 'false'14     # 通过页面分析,发现浏览器提交的FormData包括以下参数15     data = parse.urlencode([16         ('first', boo),17         ('pn', pn),18         ('kd', keyword)19         ])20     req = request.Request(url, headers=headers)21     page = request.urlopen(req, data=data.encode('utf-8')).read()22     page = page.decode('utf-8')23     return page

通过Json获取PositionId:

1 # 获取所需的岗位id,每一个招聘页面详情都有一个所属的id索引2 def read_id(page):3     tag = 'positionId'4     page_json = json.loads(page)5     page_json = page_json['content']['result']6     company_list = []7     for i in range(15):8         company_list.append(page_json[i].get(tag))9     return company_list

合成目标url:

 1 # 获取职位页面,由PositionId和BaseUrl组合成目标地址 2 def get_content(company_id): 3     fin_url = r'http://www.lagou.com/jobs/%s.html' % company_id 4     headers = { 5         'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ' 6                       'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3', 7         'Host': 'www.lagou.com', 8         'Connection': 'keep-alive', 9         'Origin': 'http://www.lagou.com'10         }11     req = request.Request(fin_url, headers=headers)12     page = request.urlopen(req).read()13     content = page.decode('utf-8')14     return content

二、对数据进行处理

获取数据之后,需要对数据进行清洗,通过BeautifulSoup抓取的职位内容包含Html标签,需要让数据脱去这层“外衣”。

1 # 获取职位需求(通过re来去除html标记),可以将职位详情单独存储2 def get_result(content):3     soup = Bs(content, 'lxml')4     job_description = soup.select('dd[class="job_bt"]') 
5     job_description = str(job_description[0])6     rule = re.compile(r'<[^>]+>') 
7     result = rule.sub('', job_description)8     return result

现在得到的数据就是职位描述信息,我们要从职位信息当中筛选我们所关注的任职要求关键词。

我们将这些关键词筛选出来,存储到List当中。经过对整个500+职位进行爬去,我们得到了职位技能关键词的总表。

1 # 过滤关键词:目前筛选的方式只是选取英文关键词2 def search_skill(result):3     rule = re.compile(r'[a-zA-z]+')4     skill_list = rule.findall(result)5     return skill_list

对关键词按照500+职位需求出现的频次进行排序,选取频次排序Top80的关键词,去除无效的关键词。

1 # 对出现的关键词计数,并排序,选取Top80的关键词作为数据的样本2 def count_skill(skill_list):3     for i in range(len(skill_list)):4         skill_list[i] = skill_list[i].lower()5     count_dict = Counter(skill_list).most_common(80)6     return count_dict

三、对数据进行存储和可视化处理

 1 # 对结果进行存储并生成Area图 2 def save_excel(count_dict, file_name): 3     book = xlsxwriter.Workbook(r'C:\Users\Administrator\Desktop\%s.xls' % file_name) 4     tmp = book.add_worksheet() 5     row_num = len(count_dict) 6     for i in range(1, row_num): 7         if i == 1: 8             tag_pos = 'A%s' % i 9             tmp.write_row(tag_pos, ['关键词', '频次'])10         else:11             con_pos = 'A%s' % i12             k_v = list(count_dict[i-2])13             tmp.write_row(con_pos, k_v)14     chart1 = book.add_chart({'type': 'area'})15     chart1.add_series({16         'name': '=Sheet1!$B$1',17         'categories': '=Sheet1!$A$2:$A$80',18         'values':  '=Sheet1!$B$2:$B$80'19     })20     chart1.set_title({'name': '关键词排名'})21     chart1.set_x_axis({'name': '关键词'})22     chart1.set_y_axis({'name': '频次(/次)'})23     tmp.insert_chart('C2', chart1, {'x_offset': 25, 'y_offset': 10})

这就是抓取之后的数据可视化展示。

30*15页的内容抓取需要花费2分多钟,相对来说还是有些慢,可以加入并行模块抓取数据。

至此,拉勾网职位需求关键词的抓取就完成了。

这个爬虫的目的就是为了抓取与编程语言相关的技能需求,大家可以通过排名靠前的关键词获知主流的框架或结构,避免遗漏。也可以通过长尾关键词来扩展自己的知识面。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2016-07-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏python学习指南

计算机系统结构——01结论

1.1 计算机系统的层次结构 从使用语言的角度,一台由软、硬件组成的通用计算机系统可以被看成是按功能划分的多层机器级组成的层次结构。具体的计算机系统,其层次数的...

2238
来自专栏互联网杂技

Neilsen十大可用性设计原则

最近在做toB类产品的时候,经常会被业务带着跑从而忽略了可用性设计的基本原则,最后导致自己的方案被挑战而说不出理由。所以当设计拿捏不准的时候,最好还好依照基本的...

3409
来自专栏知晓程序

除了聊天,我们还能在微信群里,干哪些正经事?

今天,就不妨收下「知晓程序」精选的 5 个群工具小程序,让你在微信群中组织活动、投票、协作都不费吹灰之力。

641
来自专栏程序员互动联盟

【专业技术】 Linux下如何学习c语言?

引言   尽管 C 语言问世已近 30 年,但它的魅力仍未减退。C 语言继续吸引着众多的开发者,他们为了编写、移植或维护应用程序而必须学习新技能。   本文是为...

3826
来自专栏CSDN技术头条

史上最明了的“编程语言琅琊榜”

小时候对掌握中、英、日、阿拉伯等多门语言的人羡慕不已,当时就许下一个心愿「我一定要成为掌握多门语言的男人」。今天,我的梦想终于实现了,我成为了一个程序员,也成为...

2746
来自专栏SDNLAB

P4:开创数据平面可编程时代

现有的SDN解决方案将控制平面与转发平面分离,并为我们提供了控制平面的可编程能力。而事实上,目前通过软件编程实现的控制平面的功能,在传统的高级交换机和路由器上也...

3877
来自专栏程序员互动联盟

如何深入学习C语言?

疑惑一 遇见编译错误了咋办? 经常见有小伙伴,呼呼的把一大段的编译错误呈现在群里,然后问这是啥原因,其实解决编译的办法还是挺多,现在重点说下编译错误是怎么出来的...

3565
来自专栏架构师之路

小小的公共库,大大的耦合,你痛过吗?

什么是耦合? 耦合,是架构中,本来不相干的代码、模块、服务、系统因为某些原因联系在一起,各自独立性差,影响则相互影响,变动则相互变动的一种架构状态。 感官上,怎...

3618
来自专栏斑斓

回眸Unix设计哲学

我觉得一切伟大的设计似乎都是不朽的,例如矗立在雅典卫城石灰岩山岗上的帕特农神庙,米开朗基罗刀工斧凿下充满雄性魅力的大卫,毕达哥拉斯对勾股定理的演绎证明,乱臣贼子...

3176
来自专栏java工会

Java编程新手入门要多久

1874

扫码关注云+社区