python爬取中国天气网天气并保存为csv格式文件

python版本:python3.7

编译器:pycharm

所爬取的网址:http://www.weather.com.cn/weather/101020100.shtml (中国天气网上海)

所用方法:lxml的css选择器

最后运行结果示例如图:

爬取思路

1. 检查网站的robots.txt文件

2. 查看网页源代码找到所要爬取的内容

3. 写表达式爬取想要的内容

4. 写入csv文件

检查网站的robots.txt文件

robots.txt文件定义了对爬虫的限制,可以直接手动在想要爬的网址后输入robots.txt查看

也可以通过代码实现,这样在爬取其他网页时也可以复用,爬多网页时比较方便。

查看网页源代码找到所要爬取的内容并爬取

写入csv文件

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181111G1COHX00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券