前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >“互联网寒冬”,来分析一下爬取的 BOSS 直聘数据。

“互联网寒冬”,来分析一下爬取的 BOSS 直聘数据。

作者头像
小小詹同学
发布2019-11-13 00:02:04
5470
发布2019-11-13 00:02:04
举报
文章被收录于专栏:小詹同学小詹同学

临近年末,“互联网寒冬”的来临让大家倍感压力,大家纷纷感叹寒冬将至。但是,越是这个时候,越要明确自己的奋斗目标,不断的充实自己,提高自己的能力,为找工作打下坚实的基础。

本次我们爬取了招聘网站上关于计算机视觉方向的招聘信息,并对于招聘信息进行分析,看一下目前计算机视觉方向对于应聘者的需求如何。

首先招聘信息的爬取采用的是selenium 库,对boss 直聘招聘网站进行爬取,因为网站对于反爬的验证码比较复杂,即便是利用tesserocr 来对这种验证码识别的也很难将其识别准确,因此直接采用selenium库,对于网页信息进行爬取。对于验证码仍需要人工来进行识别并进行操作。但是由于爬取的过程中,对网页进行了模拟浏览过程,因此几乎不会产生反爬环节。

对于招聘信息的提取首先是打开我们所要查询的招聘方向的链接,这里我们查询的是计算机视觉方向(自己更改所需即可),然后针对每一页上的每一个招聘链接,在新的网页进行打开,然后爬取其网页信息。整体的运行效果图如下动图所示。

对于每一个招聘链接,利用BeautifulSoup进行网页信息的提取,并将其保存到csv文件当中,具体代码如下图所示。

完整代码获取见文末

这里我们爬取了招聘信息中,对于应聘者的学历、经验的要求,以及招聘者提出的工作要求和薪金待遇以及工作地点。将爬取后的信息保存为csv文件放到根文件夹下,至此爬取招聘信息的工作便完成。爬取的信息如下如所示。

首先,我们想观察一下目前招聘者对于应聘者的工作要求,因此为了更加直观的展示工作要求,我们采用词云的形式,对于工作要求中的关键词进行展示。

采用词云的优势在于:第一,展示起来比较美观,第二是出现频率越高的关键词,其字体也越大,因此更能直观的进行展示。

对于爬取得到的信息,利用pandas进行读取,然后将“工作要求”一项进行提取后,采用jieba进行分析,并结合WordCloud库进行展示,得到的结果如下如所示。

由词云我们可以看出,目前计算机视觉领域深度学习技术是最杯招聘者所看重的一项技能,因此它的出现频率也是最高的。其次对于机器学习、图像处理技术也要进行掌握,并能达到熟练掌握的程度。如果有小伙伴想要进军计算机视觉领域的话,那么上述的词云所体现的信息,将会对你有很大的帮助,在处理完“工作需求之后”,我们还对大家普遍关心的“工资”水平和“经验”要求进行了分析。

由于招聘者对于工资都是提供一个大概的范围,因此,这里我们采取招聘者提供的平均工资来作为我们的“工资”数据,根据平均工资的最大值跟最小值将工资分为五类,可视化数据如下图所示。

由工资图可以看出,目前计算机视觉领域的工资水平大都集中在20K到30K之间,还是一个相当不错的工资水平。

对于经验的分析,我们也进行了分析,如下图所示。

由上图可以看出,招聘者对于应聘者的经验还是十分看重的,因此如果小伙伴是在校生的话,还是抓住机会出去实习,增长自己的经验吧。

我爱小詹

/ 今日互动 /

留言主题 : 互联网寒冬你打算如何提高自己?

留言格式 —— Day xx : blablabla ;这里强调下 ,不符合主题和格式的打卡不移入精选,打卡无效噢 !兑换的时候会核实打卡情况 ,断打卡的记得从 Day.01 开始 ~

完整代码和爬取结果 csv 文件在后台回复关键词 boss 即可,点击原文也可直达~

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-01-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小詹学Python 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档