SeanCheney的专栏-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

SeanCheney的专栏

专栏成员

192

文章

387548

阅读量

89

订阅数

《Learning Scrapy》（中文版）第8章 Scrapy编程

python 编程算法爬虫 scrapy

到目前为止，我们创建爬虫的目的是抓取数据，并提取信息。除了爬虫，scrapy可以让我们微调它的功能。例如，你会经常碰到以下状况：

2019-02-15

7440

《Learning Scrapy》（中文版）0 序言

scrapy 爬虫 python html

Dimitris Kouzis – Loukas有超过15年的软件开发经历。同时他也参与到教学活动中，受众广泛。

2019-02-15

8130

《Learning Scrapy》（中文版）第7章配置和管理

scrapy 爬虫 tcp/ip python http

我们已经学过了用Scrapy写一个抓取网络信息的简单爬虫是多么容易。通过进行设置，Scrapy还有许多用途和功能。对于许多软件框架，用设置调节系统的运行，很让人头痛。对于Scrapy，设置是最基础的知识，除了调节和配置，它还可以扩展框架的功能。这里只是补充官方Scrapy文档，让你可以尽快对设置有所了解，并找到能对你有用的东西。在做出修改时，还请查阅文档。

2019-02-15

7400

Scrapy的CrawlSpider用法

scrapy ide 官方文档 http html

rules是一组Rule对象。每条Rule定义了抓取网页的方式。如果多条规则匹配到同一链接，根据定义规则的顺序，使用第一个链接。

2018-12-14

1.2K0

Learning Scrapy 第二版

下载链接：https://share.weiyun.com/5LZAI1S 《Learning Scrapy》的第二版马上就要正式出版了（2018年6月11日），Packt已经在网站上提供了下载链接（需付费），但可惜是个先早版，只有前四章。粗略看了下，书的副标题变了，但前三章的内容变化不大。第四章的案例变成了抓取CNN和BBC，取代了原来无聊的app数据案例。第二版是对应Scrapy的1.4版本的（但是刚刚看了下Scrapy官网，Scrapy现在已经是1.5版了），重点的变化应该是在后面关于Scra

2018-04-24

8400

Scrapy的架构一、Scrapy的Twisted引擎模型二、Scrapy的性能模型三、Scrapy架构组件数据流(Data flow)四、Scrapy架构

Scrapy的架构太重要了，单用一篇文章再总结整合下。前两张图来自《Learning Scrapy》，第三张图来自Scrapy 1.0中文官方文档（该中文文档只到1.0版），第四张图来自Scrapy

2018-04-24

2.2K0

Scrapy CSS选择器

官方文档的CSS选择器太简短，整理了一个比较全的。 * 选择所有节点 #container 选择id为container的节点 .container 选择所有class包含container的节点 li a 选取所有li 下

2018-04-24

6370

Scrapy-Redis分布式抓取麦田二手房租房信息与数据分析准备工作租房爬虫二手房分布式爬虫数据分析及可视化

scrapy 云数据库 Redis 分布式数据分析爬虫

试着通过抓取一家房产公司的全部信息，研究下北京的房价。文章最后用Pandas进行了分析，并给出了数据可视化。 ---- 准备工作麦田房产二手房页面（http://bj.maitian.cn/esfa

2018-04-24

1.5K0

Scrapy使用随机IP代理

第一步，先用不用代理的方式从西刺代理抓几个可用的IP，用Python的telnetlib库对其进行验证，将可用且速度够快的IP存入Redis和一个txt文件： import redis import telnetlib import urllib.request from bs4 import BeautifulSoup r = redis.Redis(host='127.0.0.1',port=6379) for d in range(1,3): #采集1到2页 scrapeUrl = 'ht

2018-04-24

1.2K0

Scrapy随机切换用户代理User-Agent

使用fake-useragent： https://github.com/hellysmile/fake-useragent 这是一个可以随机切换访问头的插件安装方法： pip install fake-useragent 使用方法： from fake_useragent import UserAgent ua = UserAgent() ua.ie # Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US); ua.msie # Moz

2018-04-24

1.3K0

Scrapy使用随机IP代理插件Scrapy-Proxies

使用Scrapy_Proxies随机IP代理插件 https://github.com/aivarsk/scrapy-proxies ---- 安装： pip install scrapy_proxies 设置settings.py： # Retry many times since proxies often fail RETRY_TIMES = 10 # Retry on most error codes since proxies fail for different reasons RETRY_H

2018-04-24

2K0

Scrapy1.4最新官方文档总结 2 Tutorial创建项目提取信息XPath简短介绍继续提取名人名言用爬虫提取信息保存数据提取下一页使用爬虫参数更多例子

scrapy 爬虫 https html python

这是官方文档的Tutorial（https://docs.scrapy.org/en/latest/intro/tutorial.html）。推荐四个Python学习资源： Dive Into Py

2018-04-24

1.4K0

Scrapy1.4最新官方文档总结 4 爬虫

这是官方文档的爬虫https://docs.scrapy.org/en/latest/topics/spiders.html 官方文档给的爬虫的定义： Spiders are classes which define how a certain site (or a group of sites) will be scraped, including how to perform the crawl (i.e. follow links) and how to extract structured dat

2018-04-24

6410

Scrapy1.4最新官方文档总结 1 介绍·安装安装

现在，Scrapy的最新版本是1.4。 Scrapy的图标是个小刮铲 :） Scrapy文档的中文版现在还是1.0的：http://scrapy-chs.readthedocs.io/zh_CN/la

2018-04-24

8260

Scrapy1.4最新官方文档总结 3 命令行工具配置设置使用 scrapy 工具创建项目管理项目Scrapy 的可用命令parse

这是官方文档的命令行工具https://docs.scrapy.org/en/latest/topics/commands.html 配置设置 Scrapy 默认在 scrapy.cfg 文件中查找配置参数：系统范围：/etc/scrapy.cfg 或 c:\scrapy\scrapy.cfg 用户范围：~/.config/scrapy.cfg ($XDG_CONFIG_HOME) 和 ~/.scrapy.cfg ($HOME) 项目内范围：scrapy.cfg 项目范围的设置将覆盖所有其他文件的设置

2018-04-24

1.2K0

《Learning Scrapy》（中文版）第4章从Scrapy到移动应用选择移动应用框架创建数据库和集合用Scrapy导入数据创建移动应用创建数据库接入服务将数据映射到用户界面映射数据字段和用户组

有人问，移动app开发平台Appery.io和Scrapy有什么关系？眼见为实。在几年前，用Excel向别人展示数据才可以让人印象深刻。现在，除非你的受众分布很窄，他们彼此之间是非常不同的。接下来几页，你会看到一个快速构建的移动应用，一个最小可行产品。它可以向别人清楚的展示你抓取的数据的力量，为源网站搭建的生态系统带来回报。我尽量让这个挖掘数据价值的例子简短。要是你自己就有一个使用数据的应用，你可以跳过本章。本章就是告诉你如何用现在最流行的方式，移动应用，让你的数据面向公众。选择移动应用框架使用适当的

2018-04-24

1.1K0

《Learning Scrapy》（中文版）第6章 Scrapinghub部署

前面几章中，我们学习了如何编写爬虫。编写好爬虫之后，我们有两个选择。如果是做单次抓取，让爬虫在开发机上运行一段时间就行了。或者，我们往往需要周期性的进行抓取。我们可以用Amazon、RackSpace等服务商的云主机，但这需要一些设置、配置和维护。这时候就需要Scrapinghub了。 Scrapinghub是Scrapy高级开发者托管在Amazon上面的云架构。这是一个付费服务，但提供免费使用。如果想短时间内让爬虫运行在专业、有维护的平台上，本章内容很适合你。注册、登录、创建项目第一步是在http:/

2018-04-24

1.1K0

《Learning Scrapy》（中文版）第3章爬虫基础

scrapy 爬虫 python

本章非常重要，你可能需要读几遍，或是从中查找解决问题的方法。我们会从如何安装Scrapy讲起，然后在案例中讲解如何编写爬虫。开始之前，说几个注意事项。因为我们马上要进入有趣的编程部分，使用本书中的代码段会十分重要。当你看到： $ echo hello world hello world 是要让你在终端中输入echo hello world（忽略$），第二行是看到结果。当你看到： >>> print 'hi' hi 是让你在Python或Scrapy界面进行输入（忽略>>>）。同样的，第二行是输出结果。

2018-04-24

3.1K0

《Learning Scrapy》（中文版）第2章理解HTML和XPath使用Chrome浏览器获得XPath表达式常见工作提前应对网页发生改变

为了从网页提取信息，了解网页的结构是非常必要的。我们会快速学习HTML、HTML的树结构和用来筛选网页信息的XPath。 HTML、DOM树结构和XPath 从这本书的角度，键入网址到看见网页的整个过程可以分成四步：在浏览器中输入网址URL。URL的第一部分,也即域名（例如gumtree.com），用来搜寻网络上的服务器。URL和其他像cookies等数据形成了一个发送到服务器的请求request。服务器向浏览器发送HTML。服务器也可能发送XML或JSON等其他格式，目前我们只关注HTML。 HTML

2018-04-24

2.1K0

《Learning Scrapy》（中文版）第5章快速构建爬虫一个具有登录功能的爬虫使用JSON APIs和AJAX页面的爬虫在响应间传递参数一个加速30倍的项目爬虫可以抓取Excel文件的爬虫总结

第3章中，我们学习了如何从网页提取信息并存储到Items中。大多数情况都可以用这一章的知识处理。本章，我们要进一步学习抓取流程UR2IM中两个R，Request和Response。一个具有登录功能的爬虫你常常需要从具有登录机制的网站抓取数据。多数时候，网站要你提供用户名和密码才能登录。我们的例子，你可以在http://web:9312/dynamic或http://localhost:9312/dynamic找到。用用户名“user”、密码“pass”登录之后，你会进入一个有三条房产链接的网页。现在的问

2018-04-24

4K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态