腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Python爬虫与算法进阶

专栏作者

132

文章

245876

阅读量

85

订阅数

分布式全站爬虫——以"搜狗电视剧"为例

http ide scrapy 云数据库 Redis 编程算法

打开一个具体的影视：http://kan.sogou.com/player/181171191/，网址中有具体数字ID，我们假设数字ID就是递增的，即从1开始，那么我们可以拼接url：

2020-04-27

5880

scrapy的errback

failure.request就是我们创建的Request对象，如果需要重试，直接yield即可errback函数能捕获的scrapy错误有：连接建立超时，DNS错误等。也就是日志中类似

2019-06-02

1.9K0

scrapy去重与scrapy_redis去重与布隆过滤器

scrapy 云数据库 Redis http 文件存储 php

在开始介绍scrapy的去重之前，先想想我们是怎么对requests对去重的。requests只是下载器，本身并没有提供去重功能。所以我们需要自己去做。很典型的做法是事先定义一个去重队列，判断抓取的url是否在其中，如下：

2019-05-06

2.3K0

scrapy自定义重试方法

scrapy json http python

Scrapy是自带有重试的，但一般是下载出错才会重试，当然你可以在Middleware处来完成你的逻辑。这篇文章主要介绍的是如何在spider里面完成重试。使用场景比如，我解析json出错了，html中不包含我想要的数据，我要重试这个请求（request）。

2019-03-07

2.3K0

爬虫之全站爬取方法

爬虫网站 scrapy ide

其实这个很好理解。比如说知乎，一个大V有100W粉丝，从这个大V出发，抓取粉丝的粉丝，一直循环下去。（可能是个死循环）

2018-12-07

1.7K0

Python函数超时，用装饰器解决

python 爬虫 scrapy

我们在自定义一个函数后，会调用这个函数来完成我们想要的功能。就拿爬虫来举例，你发送请求，服务器给你响应，但是有可能服务器没有给你任何数据，无论是他识别了爬虫、还是服务器繁忙什么原因，这个时候，你的爬虫就会一直等待响应，这个时候就会非常浪费资源，还会造成程序阻塞。

2018-07-25

2.3K0

scrapy-redis 和 scrapy 有什么区别？

scrapy 云数据库 Redis 爬虫分布式

最近在工作中一直使用 redis 来管理分发爬虫任务，让我对 scrapy-redis 有很深刻的理解，下面让我慢慢说来。

2018-07-25

7860

强大的异步爬虫 with aiohttp

爬虫人工智能 scrapy python

看到现在网络上大多讲的都是requests、scrapy，却没有说到爬虫中的神器：aiohttp

2018-07-25

1K0

Scrapy源码（1）——爬虫流程概览

python scrapy 爬虫

前言使用 Scrapy 已经有一段时间了，觉得自己有必要对源码好好的学习下了，所以写下记录，希望能加深自己的理解。 Scrapy | A Fast and Powerful Scraping and Web Crawling Framework 接下来说到的是最新版本： Scrapy 1.5，暂且把 Spider 称为蜘蛛，而不是爬虫。介绍 Scrapy是一个开源爬虫框架，用于抓取网站并提取有用的结构化数据，如数据挖掘，信息处理或历史档案。尽管Scrapy最初是为网页抓取设计的，但它也可以用于使用A

2018-04-04

9540

Scrapy源码（2）——爬虫开始的地方

scrapy 爬虫 python

Scrapy运行命令一般来说，运行Scrapy项目的写法有，（这里不考虑从脚本运行Scrapy） Usage examples: $ scrapy crawl myspider [ ... myspider starts crawling ... ] $ scrapy runspider myspider.py [ ... spider starts crawling ... ] 但是更好的写法是，新建一个Python文件，如下，（便于调试） from scrapy import cmdline c

2018-04-04

9660

Hi，这里是我的爬虫笔记

爬虫 python scrapy

平时有个习惯，会把自己的笔记写在有道云里面，现在做个整理。会长期更新，因为我是BUG制造机。解析 xpath提取所有节点文本 <div id="test3">我左青龙，<span id="tiger">右白虎，<ul>上朱雀，<li>下玄武。</li></ul>老牛在当中，</span>龙头在胸口。<div> 使用xpath的string(.) #!/usr/bin/env python # -*- coding: utf-8 -*- from scrapy.selector import Selec

2018-04-04

9080

基于Scrapy的全球最大成人网站PornHub爬虫

python scrapy 爬虫

首先科普下 PornHub 是个啥？ Pornhub是一个加拿大的色情影片分享网站。它是目前网上最大的色情影片网站，服务分享遍及全球。Pornhub于2007年在魁北克省蒙特利尔市成立。它是一个免费的，由广告支持的网站。除了专业色情内容，网站也提供业余色情内容。Pornhub在英国伦敦市，美国加利福尼亚州旧金山市，美国得克萨斯州休斯敦市以及美国路易斯安那州新奥尔良市均有分部和服务器。 2010年3月Pornhub被MindGeek购买，MindGeek同时拥有许多其他的色情网站。 📷 声明：本

2018-04-04

19.2K0

Scrapy中如何提高数据的插入速度

scrapy 分布式爬虫

速度问题最近工作中遇到这么一个问题，全站抓取时采用分布式：爬虫A与爬虫B，爬虫A给爬虫B喂饼，爬虫B由于各种原因运行的比较慢，达不到预期效果，所以必须对爬虫B进行优化。提升Scrapy运行速度有很多方法，国外有大佬说过 Speed up web scraper Here's a collection of things to try: use latest scrapy version (if not using already) check if non-standard middlewares a

2018-04-04

2.4K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态