前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >学爬虫就要找点有意思的小项目:用python做个查询空气质量的脚本

学爬虫就要找点有意思的小项目:用python做个查询空气质量的脚本

作者头像
云飞
发布2018-09-14 16:35:29
6910
发布2018-09-14 16:35:29
举报
文章被收录于专栏:云飞学编程

俗话说:兴趣是最好的老师,只是闷头看书,闭门造车是学不好的,今天给大家带来一个适合刚入门新手的爬虫体验,抓取某网站空气质量数据,并做成一个可查询的脚本!

开始前准备工作!

工具:python3.6,pycharm

库:requests,re,etree(xpath)

目标:

该页面下所有省份、城市的列表,用于查询

城市详情页面,空气质量评分及各个观测点数据呈报!

爬虫思路

抓取数据说明部分,作为脚本开头的说明文字

抓取城市空气质量排名页面内容,并print出来作为可选项!

抓取所有的省份,然后编号存入字典内,在抓到所有省份下城市列表及相应url存入字典,这个字典通过1个函数实现,字典的最终格式如下:

{编号1:省份1,编号2:省份2……省份1:{城市1:url1,城市2:url2……},省份2:{城市1:url1,城市2:url2……}}

再做一个函数,构建城市页面的数据格式,抓取并print出来

最后在构建脚本主体,主要是需要用户选择省份、城市或者排名,整体效果如下:

篇幅有限,源码就不放了,大家可以自己做一个试试,这个网站也没有反爬措施,很简单的一个小脚本,难点在于构建省份和城市的字典,和最终效果的排版,我这里也存在一些问题就是排版其实并不整齐,有时间可以在优化一下!

有想要源码的,或者有更好的建议的同学,可以在评论区留言哦!关键是,先关注下呗!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-05-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 云飞学python 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 爬虫思路
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档