python爬虫小程序关于上海人才引进落户公司汇总

文章来源：企鹅号 - 静夜思舍

近期懵逼忙碌状，清新的游记文儿憋了好久没开动。那本着经世致用的原则，研究了上海人才引进途径的落户政策（当年撒比犯的错一失足成千古恨就不说了），顺便统计了财大气粗膀大腰圆的公司有哪些（为一样悲惨经历的童鞋们tiaocao做准备）。旨在从程序猿视角，美化下某大神的code来凑一篇。

至于说好的济州岛呢，那下次咯。

废话不多说，进入正文。

本文研究背景和目标：

错过了应届生落户的最美好时光，而今幡然悔悟“户口”的奥义，觉着非有不可。一般途径，7年正常社保+税的居转户之路；二般途径，通过有资格的公司人才引进落户；三般途径，创业、高端人才落户。

本文着重研究二般途径，无论是粗浅了解或者建立针对性的目标，都有裨益。

研究方法：

当然是万能的百度啊~人才引进落户都有公示的。当然你百度到了，浏览一眼，就可以止步于此。小编百度了，可看着每月几百号人的密密麻麻列表，马上迸发出程序猿的优越性。用python一爬，一统计，搞定！

本文CF技术点：

1. python爬网页的初级应用code (urllib, re 库)

2. python pandas dataframe的一点统计和画图功能

结论先上：

Note:数据统计了2017年有公示的8个月里（1、5、9、12月没有），办理人才引进人数的Top10公司

Code开始：

解析：

python爬虫比较难的应该是网页源代码找规律，然后写正则表达式。恰巧，这个网页要抓取的内容很有特点，即表格上了颜色。

这是原网页（http://www.shchhukou.com/2017/12/01/201711shsyjrcsbbsczhkgsmd/）

这是网页部分源代码

这是核心部分，匹配前后，找（）里的内容

r = re.compile(r'bgcolor="f6f6f6".*>(.*?)').findall(res)

结果如下：

写循环，把这些内容读到dataframe

##这里是列名

data = pd.DataFrame(columns = r[:5])

##这里把数据读到dataframe

for j in range(1, len(r)/5):

for k in range(5):

data.loc[j, r[0+k]] = r[5*j+k]

##再加上时间yyyymm

data['ym']=ym[i]

201702的网页表格格式不太一样，又单独写了一段，再跟上面1703-1711的合并在一起

最后的数据表长这样：

按公司统计，然后draw a bar chart~~

喏~就酱！

最近水逆的人颇多，希望小伙伴们都能心平气和保持围笑

Don't rush. The best will come.

发表于: 2018-03-162018-03-16 21:40:53
原文链接：http://kuaibao.qq.com/s/20180316G1QIE700?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

python爬虫小程序关于上海人才引进落户公司汇总

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

python爬虫小程序 关于上海人才引进落户公司汇总

相关快讯

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

python爬虫小程序关于上海人才引进落户公司汇总