俗话说:兴趣是最好的老师,只是闷头看书,闭门造车是学不好的,今天给大家带来一个适合刚入门新手的爬虫体验,抓取某网站空气质量数据,并做成一个可查询的脚本!
开始前准备工作!
工具:python3.6,pycharm
库:requests,re,etree(xpath)
目标:
该页面下所有省份、城市的列表,用于查询
城市详情页面,空气质量评分及各个观测点数据呈报!
抓取数据说明部分,作为脚本开头的说明文字
抓取城市空气质量排名页面内容,并print出来作为可选项!
抓取所有的省份,然后编号存入字典内,在抓到所有省份下城市列表及相应url存入字典,这个字典通过1个函数实现,字典的最终格式如下:
{编号1:省份1,编号2:省份2……省份1:{城市1:url1,城市2:url2……},省份2:{城市1:url1,城市2:url2……}}
再做一个函数,构建城市页面的数据格式,抓取并print出来
最后在构建脚本主体,主要是需要用户选择省份、城市或者排名,整体效果如下:
篇幅有限,源码就不放了,大家可以自己做一个试试,这个网站也没有反爬措施,很简单的一个小脚本,难点在于构建省份和城市的字典,和最终效果的排版,我这里也存在一些问题就是排版其实并不整齐,有时间可以在优化一下!
有想要源码的,或者有更好的建议的同学,可以在评论区留言哦!关键是,先关注下呗!