前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Tumblr爬虫——下载指定博主资源

Tumblr爬虫——下载指定博主资源

作者头像
小歪
发布2018-12-26 15:53:56
1.1K0
发布2018-12-26 15:53:56
举报

看看最近的新闻都知道Tumblr将在12月17日起下架所有成人内容。具体信息如下,内容来自官网

写了一个爬虫,可以下载Tumblr指定博主的资源,放在了以前的awesome_crawl中,会在阅读原文中给出地址。

用法:python tumblr_spider.py username

username就是你选中的博主,如果需要下载多位,可以用,分割。如 python tumblr_spider.py user1,use2,use3

代码很简单,可以自行查看源代码。需要注意,Tumblr需要访问外国网站,比如我用的是ss,选择Copy HTTP Proxy Shell Export Line,然后将代理在get_proxy()函数中设置。

有意思的是写了一个公用的方法,代码如下:

代码语言:javascript
复制
class Session(object):
    def __init__(self):
        self.session = requests.session()
        self.session.proxies.update(get_proxy())
        self.session.headers.update(headers)

    def get(self, url, **kwargs):
        retry_times = 0
        while True:
            try:
                res = self.session.get(url, **kwargs)
                return res
            except Exception:
                retry_times += 1
                if retry_times > 20:
                    return None
                else:
                    continue

这样,在使用的时候就比较方便,直接实例化一个session对象,各种方法可以使用调用get添加。因为我这里没有需要使用post方法,如果有需要可以使用同样的方法来实现此功能。

其实Tumblr中有很多很有趣的东西,比如:

还有

为啥突然会有这个决定呢?

你们说,是不是要来中国了

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-12-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python爬虫与算法进阶 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档