腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Python爬虫与算法进阶

专栏作者

132

文章

246656

阅读量

85

订阅数

分布式全站爬虫——以"搜狗电视剧"为例

http ide scrapy 云数据库 Redis 编程算法

打开一个具体的影视：http://kan.sogou.com/player/181171191/，网址中有具体数字ID，我们假设数字ID就是递增的，即从1开始，那么我们可以拼接url：

2020-04-27

5890

scrapy的errback

failure.request就是我们创建的Request对象，如果需要重试，直接yield即可errback函数能捕获的scrapy错误有：连接建立超时，DNS错误等。也就是日志中类似

2019-06-02

1.9K0

cURL——爬虫开发神器

php 命令行工具 python http

就可以直接转换为Python的requests，Headers什么的就不需要手动粘贴了。

2019-05-30

1.8K0

scrapy去重与scrapy_redis去重与布隆过滤器

scrapy 云数据库 Redis http 文件存储 php

在开始介绍scrapy的去重之前，先想想我们是怎么对requests对去重的。requests只是下载器，本身并没有提供去重功能。所以我们需要自己去做。很典型的做法是事先定义一个去重队列，判断抓取的url是否在其中，如下：

2019-05-06

2.3K0

https 网络安全 http

问题最近很多人都在问拉勾反爬是怎么回事，简单说下。拉勾职位数据都在Ajax加载中，每一个请求都会携带上一次返回的cookies。我们来做个试验，先在浏览器中打开该网址：`https://www.

2019-05-06

9260

反反爬虫系列(三)

爬虫 api http

大概1年多前看过携程的一个产品经理叫什么崔广宇？写的一篇爬虫与反反爬的文章，当时觉得这个人好狂，当时对于携程的这个eleven我确实没办法，今儿就讲讲怎么去撸这个eleven

2019-03-07

1.9K1

scrapy自定义重试方法

scrapy json http python

Scrapy是自带有重试的，但一般是下载出错才会重试，当然你可以在Middleware处来完成你的逻辑。这篇文章主要介绍的是如何在spider里面完成重试。使用场景比如，我解析json出错了，html中不包含我想要的数据，我要重试这个请求（request）。

2019-03-07

2.3K0

Tumblr爬虫——下载指定博主资源

看看最近的新闻都知道Tumblr将在12月17日起下架所有成人内容。具体信息如下，内容来自官网

2018-12-26

1.1K0

WebSocket爬虫之爬取龙珠弹幕

爬虫 http java xml ajax

我是个宅男，喜欢看很多人直播，以前可以看一天直播不出门。现在主要看这么些主播，虎牙的韦神、Dopa，斗鱼的狗贼嘘嘘。

2018-12-14

2.8K1

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态