首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python爬虫小例子——51job发布的工作职位

涉及知识点 本例主要51job发布的工作职位,用到的知识点如下: 开发环境及工具:主要用到Python3.7 ,IDE为PyCharm requests类库:本类库封装了python的内置模块,...目标 如有要相关内容,首先要对的目标进行分析,了解其目录结构,才能进行解析。本例主要51job中的工作列表,如下所示: ?...的结果保存在jobs.json文件中,如下所示: [ { "工作名称": "Java架构师", "公司": "深圳市钻木信息技术有限公司", "工作地址": "深圳-福田区", "薪资水平":...,数据量相对小,如果要大量数据的时候,则需要使用多线程相关的知识。...基础的爬虫,只能静态渲染的内容,如果是异步动态渲染的数据,如何呢? 将的结果保存到数据库如何操作呢?

1.6K20

Selenium 动态51job招聘信息

爬虫实现的功能: 输入python,选择地点:上海,北京 ---->就去上海,北京2个城市python招聘信息 输入会计,选择地址:广州,深圳,杭州---->就去广州,深圳,杭州3个城市会计招聘信息...根据输入的不同,动态结果  二、页面分析 输入关键字 selenium怎么模拟用户输入关键字,怎么选择城市,怎么点击搜索按钮?...城市编号,也就是说在输入"北京+上海",实际上输入的是:"010000,020000", 那这个城市编号怎么来的,这个就需要去51job弹出城市选择框那个页面了,页面代码里面有城市对应的编号 获取城市编号...最后定位需要的数据 岗位名,薪水,公司名,招聘信息,福利待遇,岗位职责,任职要求,上班地点,工作地点 这些数据,总之需要什么数据,就什么 需要打开岗位详细的链接,比如:https://jobs.51job.com...根据输入结果的不同,不同的信息,利用selenium可以做到动态 注意:如果遇到51job页面改版,本程序运行会报错。请根据实际情况,修改对应的爬虫规则。

1.2K40
您找到你想要的搜索结果了吗?
是的
没有找到

爬虫案例:拉勾网工作职位

本次我们的目标是拉勾网上成都的python岗位信息,包括职位名称、地区、薪水、任职要求、工作内容标签、公司名称、公司的类别及规模和福利待遇等信息,并将这些信息保存在一个CSV文件当中,废话不多说,开干...pn=1&fromSearch=true&kd=python&city=%E6%88%90%E9%83%BD' 想要所有页面,只需要设置一个循环,每个循环中调用工作信息的函数即可,代码如下: if...get_info_job(url)         # 为了保证速度过快导致IP被封,设置一下等待时间,取下一页的时候等待2秒         sleep(2) 接下来就是定义每一页工作信息内容并写入到...,每次循环的时候直接调用该函数就行了,并且该程序能够适配所有地区和所有工作岗位的信息,只需要更换具体的url就行了。...该程序成都岗位的信息效果图如下: 我们可以看到,我们的信息有职位名称、地区、薪水、经验和学历要求、工作标签、公司名称、公司类别和规模、福利待遇等信息。

1.1K10

Selenium&Chrome实战:动态51job招聘信息

----->  51job招聘网站的招聘信息 Selenium自动化测试工具,可模拟用户输入,选择,提交 爬虫实现的功能:  1  输入python,选择地点:上海,北京 ---->就去上海,北京...2个城市python招聘信息  2  输入会计,选择地址:广州,深圳,杭州---->就去广州,深圳,杭州3个城市会计招聘信息  3  根据输入的不同,动态结果  目标分析: selenium怎么模拟用户输入关键字...城市编号,也就是说在输入"北京+上海",实际上输入的是:"010000,020000", 那这个城市编号怎么来的,这个就需要去51job弹出城市选择框那个页面了,页面代码里面有城市对应的编号 获取城市编号...要知道我们写的是动态爬虫,可以根据输入的不同,不同的招聘信息, 怎么验证呢?...根据输入结果的不同,不同的信息,利用selenium可以做到动态 代码分析: 整个项目代码分为三个文件 getcity.py  (首先运行)获取城市编号,会生成一个city.txt文件 mylog.py

1.6K20

Python爬虫:拉勾网职位并分析

前言 本文从拉勾网深圳市数据分析的职位信息,并以CSV格式保存至电脑,之后进行数据清洗,生成词云,进行描述统计和回归分析,最终得出结论。 1....用到的软件包 Python版本: Python3.6 requests:下载网页 math:向上整 time:暂停进程 pandas:数据分析并保存为csv文件 matplotlib:画图 statsmodels...page = res.json() return page 在搜索结果的第一页,我们可以从JSON里读取总职位数,按照每页15个职位,获得要的页数。...再使用循环按页,将职位信息汇总,输出为CSV格式。 程序运行如图: ? 抓取结果如图: ? 3. 数据清洗 数据清洗占数据分析工作量的大头。...工作经验均值,工资区间的四分位数值,比较接近现实。

1.6K21

使用requests拉勾网python职位数据

爬虫目的 本文想通过拉勾网Python相关岗位数据,简单梳理Requests和xpath的使用方法。...Requests简介 Requests是一款目前非常流行的http请求库,使用python编写,能非常方便的对网页Requests进行。...开始数据采集 1、请求地址: https://www.lagou.com/zhaopin/Python/ 2、需要的内容 提取职位概况信息,包括: 职位名称 公司名称 公司简介 薪水 职位招聘对象...p_require.strip(),"\n ".join(p_detail)] for i in p_list: print(i) 输出: 总结 本文使用requests和xpath工具对拉勾网python职位数据进行并解析...对于想翻页所有岗位信息,本文并无介绍。有兴趣的童鞋可以更改地址参数,对代码进行动态包装,尝试所有python岗位信息。

59630

爬虫智联招聘的职位信息(基础)

简单智联招聘的内容,之前在网上找关于这方面的代码,最后发现都不行,智联现在的招聘信息都是js加载,直接请求响应不到响应的内容,只能使用selenium,通过selenium加载,网页加载完成后返回...开始正文 先找到要的url,https://sou.zhaopin.com/?...前10页的数据,每页60条 第一步就是创建项目; scrapy startproject zhilian 打开该项目:(项目目录) 编写selenium中间件 class SeleniumSpiderMiddleware...spider.browser.page_source, encoding="utf-8", request=request) 这里的中间件只是做一个请求,返回加载js...智联的时候还碰到一个问题,就是同一个url用浏览器访问和你用selenium调用浏览器去访问,完全是不同的页面,所以获取数据的xpath需要重新写 这是保存在TXT中的数据 mongodb中保存的数据

69320

使用nodejs拉勾苏州和上海的.NET职位信息

在拉勾上按照城市苏州关键字.NET来搜索一共才80来个职位,再用薪水一过滤,基本上没几个能投了。再加上最近苏州的房价蹭蹭的长,房贷压力也是非常大,所以有点想往上海去发展。...闲来无聊写了个小爬虫,了下苏州跟上海的.NET职位的信息,然后简单对比了一下。 是的小弟擅长.NET,为啥用nodejs?...一:如何拉勾的数据 这个其实非常简单,本来还以为要用正则去分析html,其实拉勾分页提了ajax的接口,可以直接用http去访问。打开神器Chrome的F12一看便知。...上海是苏州的4倍 5-10k:上海是苏州的4倍 10-15k:上海是苏州的9倍 15-20k:上海是苏州的12倍 20-25k:上海是苏州的17倍 >25k:上海是苏州的26倍 可以看到从10-15k开始的职位...,上海的数量是苏州的10多倍,越是高薪的职位倍数越高。

41520
领券