近期懵逼忙碌状,清新的游记文儿憋了好久没开动。那本着经世致用的原则,研究了上海人才引进途径的落户政策(当年撒比犯的错一失足成千古恨就不说了),顺便统计了财大气粗膀大腰圆的公司有哪些(为一样悲惨经历的童鞋们tiaocao做准备)。旨在从程序猿视角,美化下某大神的code来凑一篇。
至于说好的济州岛呢,那下次咯。
废话不多说,进入正文。
本文研究背景和目标:
错过了应届生落户的最美好时光,而今幡然悔悟“户口”的奥义,觉着非有不可。一般途径,7年正常社保+税的居转户之路;二般途径,通过有资格的公司人才引进落户;三般途径,创业、高端人才落户。
本文着重研究二般途径,无论是粗浅了解或者建立针对性的目标,都有裨益。
研究方法:
当然是万能的百度啊~人才引进落户都有公示的。当然你百度到了,浏览一眼,就可以止步于此。小编百度了,可看着每月几百号人的密密麻麻列表,马上迸发出程序猿的优越性。用python一爬,一统计,搞定!
本文CF技术点:
1. python爬网页的初级应用code (urllib, re 库)
2. python pandas dataframe的一点统计和画图功能
结论先上:
Note:数据统计了2017年有公示的8个月里(1、5、9、12月没有),办理人才引进人数的Top10公司
Code开始:
解析:
python爬虫比较难的应该是网页源代码找规律,然后写正则表达式。恰巧,这个网页要抓取的内容很有特点,即表格上了颜色。
这是原网页(http://www.shchhukou.com/2017/12/01/201711shsyjrcsbbsczhkgsmd/)
这是网页部分源代码
这是核心部分,匹配前后,找()里的内容
r = re.compile(r'bgcolor="f6f6f6".*>(.*?)').findall(res)
结果如下:
写循环,把这些内容读到dataframe
##这里是列名
data = pd.DataFrame(columns = r[:5])
##这里把数据读到dataframe
for j in range(1, len(r)/5):
for k in range(5):
data.loc[j, r[0+k]] = r[5*j+k]
##再加上时间yyyymm
data['ym']=ym[i]
201702的网页表格格式不太一样,又单独写了一段,再跟上面1703-1711的合并在一起
最后的数据表长这样:
按公司统计,然后draw a bar chart~~
喏~就酱!
最近水逆的人颇多,希望小伙伴们都能心平气和保持围笑
Don't rush. The best will come.
领取专属 10元无门槛券
私享最新 技术干货