首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python爬虫小程序 关于上海人才引进落户公司汇总

近期懵逼忙碌状,清新的游记文儿憋了好久没开动。那本着经世致用的原则,研究了上海人才引进途径的落户政策(当年撒比犯的错一失足成千古恨就不说了),顺便统计了财大气粗膀大腰圆的公司有哪些(为一样悲惨经历的童鞋们tiaocao做准备)。旨在从程序猿视角,美化下某大神的code来凑一篇。

至于说好的济州岛呢,那下次咯。

废话不多说,进入正文。

本文研究背景和目标:

错过了应届生落户的最美好时光,而今幡然悔悟“户口”的奥义,觉着非有不可。一般途径,7年正常社保+税的居转户之路;二般途径,通过有资格的公司人才引进落户;三般途径,创业、高端人才落户。

本文着重研究二般途径,无论是粗浅了解或者建立针对性的目标,都有裨益。

研究方法:

当然是万能的百度啊~人才引进落户都有公示的。当然你百度到了,浏览一眼,就可以止步于此。小编百度了,可看着每月几百号人的密密麻麻列表,马上迸发出程序猿的优越性。用python一爬,一统计,搞定!

本文CF技术点:

1. python爬网页的初级应用code (urllib, re 库)

2. python pandas dataframe的一点统计和画图功能

结论先上:

Note:数据统计了2017年有公示的8个月里(1、5、9、12月没有),办理人才引进人数的Top10公司

Code开始:

解析:

python爬虫比较难的应该是网页源代码找规律,然后写正则表达式。恰巧,这个网页要抓取的内容很有特点,即表格上了颜色。

这是原网页(http://www.shchhukou.com/2017/12/01/201711shsyjrcsbbsczhkgsmd/)

这是网页部分源代码

这是核心部分,匹配前后,找()里的内容

r = re.compile(r'bgcolor="f6f6f6".*>(.*?)').findall(res)

结果如下:

写循环,把这些内容读到dataframe

##这里是列名

data = pd.DataFrame(columns = r[:5])

##这里把数据读到dataframe

for j in range(1, len(r)/5):

for k in range(5):

data.loc[j, r[0+k]] = r[5*j+k]

##再加上时间yyyymm

data['ym']=ym[i]

201702的网页表格格式不太一样,又单独写了一段,再跟上面1703-1711的合并在一起

最后的数据表长这样:

按公司统计,然后draw a bar chart~~

喏~就酱!

最近水逆的人颇多,希望小伙伴们都能心平气和保持围笑

Don't rush. The best will come.

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180316G1QIE700?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券