腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

钱塘小甲子的博客

专栏作者

203

文章

323666

阅读量

83

订阅数

让爬虫更加友好

写一个爬虫去互联网上采集数据这件事情，看似好像对别人没有坏处，其实如果爬虫不断的去爬数据的话，会给爬取对象的网站造成很大的压力。所以我们往往会限制爬虫爬取的速度。

钱塘小甲子

2019-01-29

4700

sjtuLib爬虫(二)----sjtuLib爬虫之建立Scrapy框架

python json 爬虫 scrapy xslt & xpath

还是爬交大图书馆的数据，不过这次我们用Scrapy的开源爬虫框架。上次我们在Anaconda平台下安装了Scrapy，这回就可以开始用啦。

钱塘小甲子

2019-01-29

3470

Scrapy之图片爬取。

爬虫 github git 开源 scrapy

首先假设我们要自己写一个获取图片的爬虫吧。那么显然，你需要的就是获取图片链接，然后写一个专门下载图片的pipline。很开心的是，scrapy其实已经给你实现好了这个pipline了，是不是很贴心呢！

钱塘小甲子

2019-01-29

1.5K0

Scrapy之探讨3个细节

在Scrapy的框架中，其实可以有好多pipline。大家在编写pipline的时候有没有这样的一个疑问，为什么pipline函数最后要有一个语句是

钱塘小甲子

2019-01-29

2890

Scrapy进阶之Scrapy的架构

爬虫 scrapy 编程算法

Scrapy是一个python的爬虫架构，但是这个架构的工作原理是怎么的呢？也就是说，Scrapy的框架是怎么样的。网上已经有很多博文说这个框架了，但是我想用另外一种方法来讲述。

钱塘小甲子

2019-01-29

4870

Scrapy的几个命令行命令

Scrapy在命令行有许多直接可以使用的命令。命令可以分为两类，一类是依赖于工程的，一类是不依赖的。对于不依赖的，就当做是一个工具就行了，有点java里面静态方法的感觉，就是一个tool。

钱塘小甲子

2019-01-29

4320

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态