前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >轻松爬取拉勾网招聘岗位信息

轻松爬取拉勾网招聘岗位信息

作者头像
公众号: 云原生生态圈
发布2020-07-02 14:44:22
6800
发布2020-07-02 14:44:22
举报
文章被收录于专栏:云原生生态圈云原生生态圈

场景

最近发现一些朋友想要跳槽,正值疫情,也不知道现在市场的如何,同时目前的IT行业更是越来越难,技术革新越来越快,对新的岗位的需求也是不断的变化,因此就会想知道现在的应聘岗位对面试者的要求有哪些,各地的某个岗位薪资范围大概是多少等信息时候,我们就需要到某个招聘网站上不断的刷页面,看数据,但是简单的想一下,可以通过Python脚本来批量的分析招聘网站上各个岗位在不同城市的需求,高效的快捷的方便我们掌握大致的方向。

实现

如何获取数据,需要掌握基本的Python爬虫知识,requests[1]模块就可以搞定了,在爬取数据之后,将其存在Excel中,因此需要xlwt[2]模块处理,当然在诸多的Python模块中,你可以选择你喜欢的,毕竟能抓老鼠的猫都是好猫。

代码语言:javascript
复制
xlwt                   1.3.0 
requests               2.18.4

下面我们就拿拉钩网站为例,思考和获取部分的数据作为个人简单的分析参考,脚本中没有涉及到隐私数据信息,大可放心,同时也是为了找工作的小伙伴们提供一下参考的方向:

注意

  1. 脚本中获取的是通过指定的页的数量获取全国各城市的岗位信息,你可以修改FetchData方法中的referer和请求地址中城市的值,以便获取你需要的目标城市的岗位信息
  2. 如果获取的比较频繁的话,可能会出现以下情况,这里你可以通过设置代理的方式解决,免费的代理IP网站上有很多,你可以参考Python专辑中获取代理的文章。
  1. 在交互式输入需要获取的页数之后,爬取的数据将会存储在当前执行位置下的data.xls

下面就简单的提供一下写好的Python脚本:

代码语言:javascript
复制
#!/usr/bin/env python3.4
# encoding: utf-8
"""
Created on 2020-06-26
@title: '爬取拉钩网站的招聘信息'
@author: marionxue
"""

import requests
import xlwt


# 获取存储职位信息的json对象,遍历获得公司名、福利待遇、工作地点、学历要求、工作类型、发布时间、职位名称、薪资、工作年限
def FetchData(url, datas):
    my_headers = {
        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36",
        "Referer": "https://www.lagou.com/jobs/list_Python?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=&suginput=",
        "Content-Type": "application/x-www-form-urlencoded;charset = UTF-8"
    }

    ses = requests.session()  # 获取session
    ses.headers.update(my_headers)  # 更新头部信息

    ses.get("https://www.lagou.com/jobs/list_%E9%83%91%E5%B7%9Ejava?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=&suginput=")
    content = ses.post(url=url, data=datas)
    result = content.json()
    info = result['content']['positionResult']['result']
    info_list = []
    for job in info:
        information = []
        information.append(job['positionId'])  # 岗位对应ID
        information.append(job['city'])  # 岗位对应城市
        information.append(job['companyFullName'])  # 公司全名
        information.append(job['companyLabelList'])  # 福利待遇
        information.append(job['district'])  # 工作地点
        information.append(job['education'])  # 学历要求
        information.append(job['firstType'])  # 工作类型
        information.append(job['formatCreateTime'])  # 发布时间
        information.append(job['positionName'])  # 职位名称
        information.append(job['salary'])  # 薪资
        information.append(job['workYear'])  # 工作年限
        info_list.append(information)

    return info_list


def main():
    page = int(input('请输入你要抓取的页码总数:'))

    info_result = []
    title = ['岗位id', '城市', '公司全名', '福利待遇', '工作地点', '学历要求', '工作类型', '发布时间', '职位名称', '薪资', '工作年限']
    info_result.append(title)
    for x in range(1, page + 1):
        url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'
        datas = {
            'first': 'false',
            'pn': x,
            'kd': 'devops工程师',
        }
        try:
            info = FetchData(url, datas)
            info_result = info_result + info
            print("第%s页数据已采集" % x)
        except Exception as msg:
            print("第%s页数据采集出现问题" % x)

        # 创建workbook,即excel
        workbook = xlwt.Workbook(encoding='utf-8')
        # 创建表,第二参数用于确认同一个cell单元是否可以重设值
        worksheet = workbook.add_sheet(datas["kd"], cell_overwrite_ok=True)
        for i, row in enumerate(info_result):
            # print(row)
            for j, col in enumerate(row):
                worksheet.write(i, j, col)
        workbook.save('data.xls')


if __name__ == '__main__':
    main()

当我们需要查看某个岗位的时候,我们只需要在58行处修改岗位的名称即可,然后输入你要采集多少页的数据即可,这样很快就会将数据采集并且存储在Excel表中

数据显示

数据基本上完成采集,当然对于自己有需要的话,还可以继续完善啊,?

参考资料

[1]

Requests: https://requests.readthedocs.io/en/master/

[2]

xlwt: https://xlwt.readthedocs.io/en/latest/

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-06-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 云原生生态圈 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 场景
  • 实现
  • 数据显示
  • 参考资料
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档