轻松爬取拉勾网招聘岗位信息

公众号: 云原生生态圈

发布于 2020-07-02 14:44:22

6800

发布于 2020-07-02 14:44:22

场景

最近发现一些朋友想要跳槽，正值疫情，也不知道现在市场的如何，同时目前的IT行业更是越来越难,技术革新越来越快，对新的岗位的需求也是不断的变化，因此就会想知道现在的应聘岗位对面试者的要求有哪些，各地的某个岗位薪资范围大概是多少等信息时候，我们就需要到某个招聘网站上不断的刷页面，看数据，但是简单的想一下，可以通过Python脚本来批量的分析招聘网站上各个岗位在不同城市的需求，高效的快捷的方便我们掌握大致的方向。

实现

如何获取数据，需要掌握基本的Python爬虫知识，requests[1]模块就可以搞定了，在爬取数据之后，将其存在Excel中，因此需要xlwt[2]模块处理，当然在诸多的Python模块中，你可以选择你喜欢的，毕竟能抓老鼠的猫都是好猫。

xlwt                   1.3.0 
requests               2.18.4

下面我们就拿拉钩网站为例，思考和获取部分的数据作为个人简单的分析参考，脚本中没有涉及到隐私数据信息，大可放心，同时也是为了找工作的小伙伴们提供一下参考的方向：

注意：

脚本中获取的是通过指定的页的数量获取全国各城市的岗位信息，你可以修改FetchData方法中的referer和请求地址中城市的值，以便获取你需要的目标城市的岗位信息
如果获取的比较频繁的话，可能会出现以下情况，这里你可以通过设置代理的方式解决，免费的代理IP网站上有很多，你可以参考Python专辑中获取代理的文章。

在交互式输入需要获取的页数之后，爬取的数据将会存储在当前执行位置下的data.xls。

下面就简单的提供一下写好的Python脚本：

#!/usr/bin/env python3.4
# encoding: utf-8
"""
Created on 2020-06-26
@title: '爬取拉钩网站的招聘信息'
@author: marionxue
"""

import requests
import xlwt


# 获取存储职位信息的json对象，遍历获得公司名、福利待遇、工作地点、学历要求、工作类型、发布时间、职位名称、薪资、工作年限
def FetchData(url, datas):
    my_headers = {
        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36",
        "Referer": "https://www.lagou.com/jobs/list_Python?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=&suginput=",
        "Content-Type": "application/x-www-form-urlencoded;charset = UTF-8"
    }

    ses = requests.session()  # 获取session
    ses.headers.update(my_headers)  # 更新头部信息

    ses.get("https://www.lagou.com/jobs/list_%E9%83%91%E5%B7%9Ejava?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=&suginput=")
    content = ses.post(url=url, data=datas)
    result = content.json()
    info = result['content']['positionResult']['result']
    info_list = []
    for job in info:
        information = []
        information.append(job['positionId'])  # 岗位对应ID
        information.append(job['city'])  # 岗位对应城市
        information.append(job['companyFullName'])  # 公司全名
        information.append(job['companyLabelList'])  # 福利待遇
        information.append(job['district'])  # 工作地点
        information.append(job['education'])  # 学历要求
        information.append(job['firstType'])  # 工作类型
        information.append(job['formatCreateTime'])  # 发布时间
        information.append(job['positionName'])  # 职位名称
        information.append(job['salary'])  # 薪资
        information.append(job['workYear'])  # 工作年限
        info_list.append(information)

    return info_list


def main():
    page = int(input('请输入你要抓取的页码总数：'))

    info_result = []
    title = ['岗位id', '城市', '公司全名', '福利待遇', '工作地点', '学历要求', '工作类型', '发布时间', '职位名称', '薪资', '工作年限']
    info_result.append(title)
    for x in range(1, page + 1):
        url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'
        datas = {
            'first': 'false',
            'pn': x,
            'kd': 'devops工程师',
        }
        try:
            info = FetchData(url, datas)
            info_result = info_result + info
            print("第%s页数据已采集" % x)
        except Exception as msg:
            print("第%s页数据采集出现问题" % x)

        # 创建workbook,即excel
        workbook = xlwt.Workbook(encoding='utf-8')
        # 创建表,第二参数用于确认同一个cell单元是否可以重设值
        worksheet = workbook.add_sheet(datas["kd"], cell_overwrite_ok=True)
        for i, row in enumerate(info_result):
            # print(row)
            for j, col in enumerate(row):
                worksheet.write(i, j, col)
        workbook.save('data.xls')


if __name__ == '__main__':
    main()

当我们需要查看某个岗位的时候，我们只需要在58行处修改岗位的名称即可，然后输入你要采集多少页的数据即可，这样很快就会将数据采集并且存储在Excel表中