Python网络爬虫-历史天气数据采集

在很多机器学习应用中,天气数据为重要的辅助特征数据,故本文主要介绍如何利用Python获取历史天气数据。

目标网站

数据爬取的目标网站为天气网

编程实现

导入相关包

下面以爬取北京市历史天气数据为例进行演示:

获取所有月份URL

分析网页源代码可知,所有月份的URL在’tqtongji1’的div中。

实现代码如下:

获取某月份的历史天气数据

获取到月份URL后,分析月份的页面源代码可知,历史天气数据在’tqtongji2’的div中。

源代码如下:

获取某年的历史天气数据

将各月份的数据汇总即可得到年历史天气数据。

源代码如下:

执行’resultdf = getyearweather(requesturl, 2017)’,结果如下:

详细代码及说明可访问我的GitHub:https://github.com/Ruanshubin

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181006G0FUSU00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券