北京马哥教育-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

北京马哥教育

专栏成员

1832

文章

3450228

阅读量

204

订阅数

Python分布式爬虫详解（一）

python 分布式爬虫 scrapy 云数据库 Redis

当项目上升到一定境界时候，需要同时抓取几百个甚至上千个网站，这个时候，单个的爬虫已经满足不了需求。比如我们日常用的百度，它每天都会爬取大量的网站，一台服务器肯定是不够用的。所以需要各个地方的服务器一起协同工作。

2018-10-22

6270

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

python 爬虫 scrapy

Scrapy，Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。 Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。 Scratch，是抓取的意思，这个Python的爬虫框架叫Scrapy，大概也是这个意思吧，就叫它：小刮刮吧。 Scrapy 使用了

2018-05-03

2K0

我用Python爬了7W知乎用户信息，终于捕获了心仪小姐姐......

python scrapy 爬虫

作为一个 Python 程序员，要如何找到小姐姐，避开暴击伤害，在智中取胜呢？于是就有了以下的对话： so~今天我们的目标是，爬社区的小姐姐~而且，我们又要用到新的姿势(雾)了~scrapy 爬虫框架

2018-05-03

9420

Python神技能 | 使用爬虫获取汽车之家全车型数据

python 爬虫 java scrapy

最近想在工作相关的项目上做技术改进，需要全而准的车型数据，寻寻觅觅而不得，所以就只能自己动手丰衣足食，到网上获（窃）得（取）数据了。汽车之家是大家公认的数据做的比较好的汽车网站，所以就用它吧。（感谢汽车之家的大大们这么用心地做数据，仰慕）俗话说的好，“十爬虫九python”，作为一只java狗，我颤颤巍巍地拿起了python想要感受一下scrapy的强大。。。在写这个爬虫之前，我用urllib2,BeautifulSoup写了一个版本，不过效率太差，而且还有内存溢出的问题，作为python小白感觉

2018-05-03

2.1K0

Python爬虫基础知识：爬虫框架Scrapy的安装说明

python 爬虫 scrapy

云豆贴心提醒，本文阅读时间4分钟之前的几篇爬虫基础知识系列内容，已经记录了一些简单的爬虫知识。这些只是处理一些简单问题自然不在话下，但是涉及到一些复杂的问题就比较麻烦。要想批量下载大量的内容，比如知乎的所有的问答，总会力不从心。这时候，就需要爬虫框架Scrapy出场了！ Scrapy = Scrach+Python，Scrach这个单词是抓取的意思，暂且可以叫它：小抓抓吧。你可以前往小抓抓的官网了解它的全部信息：doc.scrapy.org/en/latest/。那么下面我们来简单的演示一下

2018-05-03

6520

爬虫框架Scrapy的第一个爬虫示例入门教程

豌豆贴心提醒，本文阅读时间8分钟我们使用dmoz.org这个网站来作为小抓抓一展身手的对象。首先先要回答一个问题。问：把网站装进爬虫里，总共分几步？答案很简单，四步：新建项目 (Project)：新建一个新的爬虫项目明确目标（Items）：明确你想要抓取的目标制作爬虫（Spider）：制作爬虫开始爬取网页存储内容（Pipeline）：设计管道存储爬取内容好的，基本流程既然确定了，那接下来就一步一步的完成就可以了。 1.新建项目（Project）在空目录下按住Shift键右击，选择

2018-05-03

1.2K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态