00:00
哈喽,大家好,如果想要一份最新的岗位市场趋势报告,肯定需要最新的岗位数据,这些数据可以通过爬取招聘网站来获取,然后通过AI进行数据分析,输出报告。但是很多招聘网站有许多的反爬虫机制,这里我举个某boss的案例,比如他设置了核心GS加密文环境检测与投毒AES加密算法、跑块验证等技术手段,这些策略阻止了简单的自动化爬虫,也为高级爬虫设置了较高的门槛。那么如何通过技术手段解决这个问题并且获取报告呢?量数据代理IP恰好能够解决上边的问题,可以利用代理以及sirliium脚本来爬取岗位数据,最后通过pandas AI进行数据分析,输出报告。首先我们先登录到量数据的官方网站,然后在产品里选择抓取浏览器,这里我将使用这个功能,然后注册登录到达用户。
01:00
控制面板,这里我已经注册过了,然后选择第一个菜单,然后这里我们可以看到这里有许多功能,这里选择浏览器API,我们可以修改这个通道名称,添加通道描述,也可以进行高级设置,自定义头和cookies,然后点击添加,可以看到我们这个浏览器API端点已经准备好了,那这里有一些代码案例,这也会生成一些主机端口,还有你的用户名。
02:00
和密码。这里是我用量数据代理IP爬取boss岗位信息的代码,并且最终使用pan Cai进行数据分析。首先我们需要设计代理,代理主要是由用户名、密码、主机端口号组成,然后通过slina配置代理。这里我们需要下载谷歌浏览器的驱动,驱动需要和谷歌浏览器的版本需要保持一致。然后设置随机等待函数,也就是每排取一页,我们随机等待几秒之后排取第二页,然后处理薪资,我们将薪资范围处理成数字的形式。接下来我们在爬取的过程中就便利职位列表,然后将公司名、职位名儿,然后薪资,然后薪资范围就是我们处理之后的一个数组,然后年底多薪,公司福利是保为实习,还有关键字提取出来。
03:00
在爬取完成之后呢,我们将数据输出为CS卫生间,接下来我们可以通过pan特AI进行数据分析。首先我们可以通过官网获取API密钥,然后通过读取本地的CSC文件,创建并保存数据集配置,将数据集推送到pandas AI这里我们执行一下脚本,然后我们输入关键字前端我们可以看到正在爬取数据,我们可以看一下页面。
04:00
的的的的的的的的的的的的的的的的的在当前目录生成了CSV文件以及panda AI的URL,我们点击URL,这里我们让pandas AI给我们输出一份前端市场宣示报告。
05:00
的的的的的的的的的的的的的的的的,可以看到pandas AI最终输出了前端的市场趋势报告,就平均薪资大概是在一万四左右,然后以及工作经验的分布,然后是热门技能,然后还有就是学历要求分布,然后就是实习岗位。在爬取数据过程中使用代理IP,真的解决了我IP被封的一个很大难题,不能随意爬,不然很容易被封量数据网页抓取API权限75。
06:00
5折有效期6个月,所有新老用户均可使用,注册即可直接享受折扣,快来体验吧。
我来说两句