columns:职位、薪水区间、工作经验、技能标签1、2、3、4、5、公司名称、规模及融资情况、公司类型、公司福利
连接数据库
检查缺失值、重复值,去重处理
position字段,去除异常不相关字段数据(str.contains函数的应用)
salary_range字段,拆为两列最高top、最低bottom薪资(find函数返回查到字符串的索引值,反之返回-1)
增加平均薪资列:匿名函数的应用
work_year字段:学历和工作年限;学历有7种数据格式:学历不限、中专/中技、高中、大专、本科、硕士、博士
工作经验有三种数据格式:x-x年、x天/周x个月、经验不限。
把全职和实习岗位区分开来:索引取反用到一个~
city字段:统一到城市名称apply(lamdba:x[:x.find('·')] if x.find('·') != -1 else x)
text字段:转化为融资情况和公司规模两列,统一规整为数据分析、数据运营、数据挖掘、其他
数据类岗位整体需求
城市、学历、工作经验对薪水的影响
不同岗位对应的学历要求、薪水分布情况
本文分享自 Python爬虫数据分析挖掘 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!