前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何优雅的进行错误重试

如何优雅的进行错误重试

作者头像
嘉美伯爵
发布2021-01-21 05:34:26
4070
发布2021-01-21 05:34:26
举报

如何优雅的进行错误重试

最近在爬取豆瓣电影所有演员和导演信息的过程中,遇到了一个小问题,目前豆瓣网页端的反爬还是很强的,只有使用代理IP来进行爬取,那么关键的问题来了,即使使用代理IP,也不能100%保证每次请求的不出错误的,那么如何优雅的进行错误重试呢?

Python异常判断

Python3版本为我们提供了简单明了的控制语句,即try...except...else,别小看else的加入,我们可以使用它来干很多事。else中的代码只有在没有任何异常发生的情况下才会执行,下一小节我们来看一下,真实业务场景中的使用。

代码语言:javascript
复制
try:
    # 逻辑语句
    ...
except:
    # 捕获异常
    ...
else:
    # 未发生异常才执行
    ...
finally:
    ...
    # 后续逻辑

实际应用

由于代理IP不能100%保证使用,我们需要引入一个重试机制,从而保证全量数据可以被爬取下来。这里使用whilecontinuebreak关键字巧妙的实现了一个错误重试功能。

代码语言:javascript
复制
import requests


def spider():
    headers = {
        "Host": "movie.douban.com",
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36"
    }
    url = 'https://movie.douban.com/subject/34962956/'
    proxies = {
        'http': 'http://115.211.132.12:8888',
        'https': 'http://115.211.132.12:8888'
    }
    count = 5
    while count > 0:
        try:
            # 注意这里的proxies在每次异常的使用需要重新获取一个
            # 我这里进行了简化
            rep = requests.get(url, headers=headers, proxies=proxies)
        except:
            # 每次异常减1
            count -= 1
            continue
        else:
            # 获取到内容,退出循环
            content = rep.text
            break
    # 继续处理爬取到的内容
    try:
        # 如果重试五次,仍然没有获取到
        handle(content)
    except:
        # 进行异常值记录
        ...

总结

当然大规模爬虫使用Scrapy等开源流行框架是明智的选择,它几乎帮你解决了你所能想到的所有问题,我们只需要简单的配置一下就好了。

  • 大家有问题可以留言讨论
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2021-01-20 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 如何优雅的进行错误重试
    • Python异常判断
      • 实际应用
        • 总结
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档