专栏首页云原生生态圈轻松爬取拉勾网招聘岗位信息

轻松爬取拉勾网招聘岗位信息

场景

最近发现一些朋友想要跳槽,正值疫情,也不知道现在市场的如何,同时目前的IT行业更是越来越难,技术革新越来越快,对新的岗位的需求也是不断的变化,因此就会想知道现在的应聘岗位对面试者的要求有哪些,各地的某个岗位薪资范围大概是多少等信息时候,我们就需要到某个招聘网站上不断的刷页面,看数据,但是简单的想一下,可以通过Python脚本来批量的分析招聘网站上各个岗位在不同城市的需求,高效的快捷的方便我们掌握大致的方向。

实现

如何获取数据,需要掌握基本的Python爬虫知识,requests[1]模块就可以搞定了,在爬取数据之后,将其存在Excel中,因此需要xlwt[2]模块处理,当然在诸多的Python模块中,你可以选择你喜欢的,毕竟能抓老鼠的猫都是好猫。

xlwt                   1.3.0 
requests               2.18.4

下面我们就拿拉钩网站为例,思考和获取部分的数据作为个人简单的分析参考,脚本中没有涉及到隐私数据信息,大可放心,同时也是为了找工作的小伙伴们提供一下参考的方向:

注意

  1. 脚本中获取的是通过指定的页的数量获取全国各城市的岗位信息,你可以修改FetchData方法中的referer和请求地址中城市的值,以便获取你需要的目标城市的岗位信息
  2. 如果获取的比较频繁的话,可能会出现以下情况,这里你可以通过设置代理的方式解决,免费的代理IP网站上有很多,你可以参考Python专辑中获取代理的文章。
  1. 在交互式输入需要获取的页数之后,爬取的数据将会存储在当前执行位置下的data.xls

下面就简单的提供一下写好的Python脚本:

#!/usr/bin/env python3.4
# encoding: utf-8
"""
Created on 2020-06-26
@title: '爬取拉钩网站的招聘信息'
@author: marionxue
"""

import requests
import xlwt


# 获取存储职位信息的json对象,遍历获得公司名、福利待遇、工作地点、学历要求、工作类型、发布时间、职位名称、薪资、工作年限
def FetchData(url, datas):
    my_headers = {
        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36",
        "Referer": "https://www.lagou.com/jobs/list_Python?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=&suginput=",
        "Content-Type": "application/x-www-form-urlencoded;charset = UTF-8"
    }

    ses = requests.session()  # 获取session
    ses.headers.update(my_headers)  # 更新头部信息

    ses.get("https://www.lagou.com/jobs/list_%E9%83%91%E5%B7%9Ejava?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=&suginput=")
    content = ses.post(url=url, data=datas)
    result = content.json()
    info = result['content']['positionResult']['result']
    info_list = []
    for job in info:
        information = []
        information.append(job['positionId'])  # 岗位对应ID
        information.append(job['city'])  # 岗位对应城市
        information.append(job['companyFullName'])  # 公司全名
        information.append(job['companyLabelList'])  # 福利待遇
        information.append(job['district'])  # 工作地点
        information.append(job['education'])  # 学历要求
        information.append(job['firstType'])  # 工作类型
        information.append(job['formatCreateTime'])  # 发布时间
        information.append(job['positionName'])  # 职位名称
        information.append(job['salary'])  # 薪资
        information.append(job['workYear'])  # 工作年限
        info_list.append(information)

    return info_list


def main():
    page = int(input('请输入你要抓取的页码总数:'))

    info_result = []
    title = ['岗位id', '城市', '公司全名', '福利待遇', '工作地点', '学历要求', '工作类型', '发布时间', '职位名称', '薪资', '工作年限']
    info_result.append(title)
    for x in range(1, page + 1):
        url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'
        datas = {
            'first': 'false',
            'pn': x,
            'kd': 'devops工程师',
        }
        try:
            info = FetchData(url, datas)
            info_result = info_result + info
            print("第%s页数据已采集" % x)
        except Exception as msg:
            print("第%s页数据采集出现问题" % x)

        # 创建workbook,即excel
        workbook = xlwt.Workbook(encoding='utf-8')
        # 创建表,第二参数用于确认同一个cell单元是否可以重设值
        worksheet = workbook.add_sheet(datas["kd"], cell_overwrite_ok=True)
        for i, row in enumerate(info_result):
            # print(row)
            for j, col in enumerate(row):
                worksheet.write(i, j, col)
        workbook.save('data.xls')


if __name__ == '__main__':
    main()

当我们需要查看某个岗位的时候,我们只需要在58行处修改岗位的名称即可,然后输入你要采集多少页的数据即可,这样很快就会将数据采集并且存储在Excel表中

数据显示

数据基本上完成采集,当然对于自己有需要的话,还可以继续完善啊,?

参考资料

[1]

Requests: https://requests.readthedocs.io/en/master/

[2]

xlwt: https://xlwt.readthedocs.io/en/latest/

本文分享自微信公众号 - 云原生生态圈(CloudNativeEcoSystem),作者:Marionxue

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-06-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Jenkins在kubernetes上的初体验

    创建 pv/pvc 对象,这里我们要注意 nfs 提供给 jenkins 的存储目录的权限问题,否则服务因为权限无法写入数据:

    云原生生态圈
  • 打造 Mac 下高颜值好用的终端环境

    最近有很多朋友看了我的文章之后,问我你终端是怎么设置的,为什么如此炫酷,这这这...让我怎么说,难道我的文章不干吗?还是特干看不下去了?好吧,今天趁着周末给大家...

    云原生生态圈
  • 火焰图:全局视野的Linux性能剖析

    日常的工作中,会收到一堆CPU使用率过高的告警邮件,遇到某台服务的CPU被占满了,这时候我们就要去查看是什么进程将服务器的CPU资源占用满了。通常我们会通过to...

    云原生生态圈
  • 【MySQL】SQLAdvisor的简单安装使用

    SQLAdvisor 是由美团点评公司北京DBA团队开发维护的 SQL 优化工具:输入SQL,输出索引优化建议。 它基于 MySQL 原生词法解析,再结合 SQ...

    用户5522200
  • 为什么黑客不直接黑支付宝?

    黑客不是大家所想象的那么出神入化,想攻击谁就攻击谁。另外大家理解的黑客在业内专属词骇客,真正的黑客是安全使者,会守卫网络安全。那么为啥黑客不去攻击支付宝? ? ...

    程序员互动联盟
  • AttributeError: 'list' object has no attribute 'keys'

    hankleo
  • 快速入门系列--WCF--01基础概念

    转眼微软的WCF已走过十个年头,它是微软通信框架的集大成者,将之前微软所有的通信框架进行了整合,提供了统一的应用方式。记得从自己最开始做MFC时,就使用过Nam...

    用户1216676
  • mongodb 中嵌套数组的且查询

    experts:[{expertId:"1",result:"success",......}

    一笠风雨任生平
  • 前端学习(45)~正则表达式

    作用:计算机可以根据正则表达式,来检查一个字符串是否符合指定的规则;或者将字符串中符合规则的内容提取出来。

    Vincent-yuan
  • 使用朴素贝叶斯进行文档分类(二)

    用户6021899

扫码关注云+社区

领取腾讯云代金券