专栏首页SeanCheney的专栏《Learning Scrapy》(中文版)0 序言

《Learning Scrapy》(中文版)0 序言


Dimitris Kouzis – Loukas有超过15年的软件开发经历。同时他也参与到教学活动中,受众广泛。

他精通数个领域,包括数学、物理和微电子。对这些学科的理解帮助使他得到了提高,超越了软件的“实用方案”。他认为,好的解决方案应该像物理学一样确定,像纠错内存一样拥有健壮性,并且像数学原理一样具有通用性。

Dimitris现在正在使用最新的数据中心技术,着手开发分布式、低延迟、高可用性的系统。他运用多个编程语言,但更偏爱Python、C++和Java。作为开源软硬件的坚定支持者,他希望对独立开发群体和整个人类做出贡献。


审稿人简介

Lazar Telebak是一名网络开发自由从业者,专精于网络抓取和利用Python库和框架进行网页索引。

他的主要工作涉及自动化、网络抓取和数据导出,导出为CSV、JSON、XML和TXT等多种格式,或是导出到MongoDB、SQLAlchemy和Postgres等数据库。

他还会使用网络前端技术:HTML、CSS、JS和Jquery。


序言

让我大胆猜一下,下面两个故事肯定有一个说的是你。

你第一次碰到Scrapy是在搜索“Python网络抓取”的时候。你瞟了一眼Scrapy想,“这个太复杂,我需要个简单的。”然后你就开始用requests写Python代码,在BeautifulSoup上碰到点麻烦,但最后成功了。这个程序有点慢,所以你让它昼夜不停的运行。重启了几次、忽略了一些坏链和非英文字符,早上的时候,大部分网页都存在你的硬盘里了。但是,因为一些未知的技术原因,你再也不想看这段代码了。下次你再抓取网络的时候,你直接登录scrapy.org,这次Scrapy文档看起来合理多了,感觉不用费力就可以解决所有问题。并且,Scrapy还能解决你没想到的问题。你再也不用以前的方法了。

或者,你是在做网络抓取调研时碰到的Scrapy。你需要一个可靠快速的企业级工具,毫无疑问,就是只要轻轻一击就能进行网络抓取。这个工具不仅要简单,而且可以根据不同的数据源进行灵活的定制,提供多种的数据输出方式,可以自动24/7的可靠运行。比起要价很高的提供网络抓取服务的公司,你偏向于开源的解决方案。从一开始,Scrapy就是当然的选择。

无论你是如何听说Scrapy的,我都热烈欢迎你翻开这本专门为Scrapy而写的书。Scrapy是全世界网络抓取专家的秘密武器。在专家手中,Scrapy节省了大量时间,表现出众,花费最少。如果你缺少经验,但想像这些专家一样,很可惜,Google帮不上你什么忙。网上关于Scrapy的大部分信息不是过于简化无效,就是太过复杂。对每个想获得准确、可用、规范的Scrapy知识的人,这是本必备的书。希望这本书可以扩大Scrapy社区,让Scrapy被更多人采用。

本书的内容

第1章,Scrapy介绍,向你介绍这本书和Scrapy,使你对Scrapy框架和后面章节有清醒的认识。

第2章,理解HTML和XPath,让爬虫初学者掌握基础的网页相关技术,以及后面会使用到的技术。

第3章,爬虫基础,我们会学习如何安装Scrapy和抓取网站。通过一步步搭建实例,让读者理解方法和背后的逻辑。学过这一章,你就可以抓取大部分简单站点了。

第4章,从Scrapy到移动应用,我们如何使用爬虫生成数据库和向移动应用提供数据支持。通过这一章,你会明白如何用网络抓取获益。

第5章,快速构建爬虫,介绍更多关于爬虫的特点,模拟登陆、更快抓取、使用APIs、爬URL的方法。

第6章,Scrapinghub部署,如何将爬虫部署到Scrapinghub云服务器,以尝试更快的可用性、简易部署和操作。

第7章,配置和管理,详细介绍利用Scrapy的配置文件对爬虫进行改进。

第8章,Scrapy编程,使用底层Twisted引擎和Scrapy架构扩展爬虫功能。

第9章,如何使用Pipelines,在不明显降低性能的条件下,举例实现Scrapy连接MySQL、Elasticsearch、Redis、APIs和应用。

第10章,理解Scrapy的性能,Scrapy的工作机制,如何提高Scrapy的性能。

第11章,Scrapyd分布式抓取和实时分析,最后一章介绍如何在多台服务器中使用Scrapyd以实现水平伸缩性,并将数据传送到Apache Spark进行实时分析。



本书第二版会在2018年三月份出版。第二版的目标是对应Scrapy 1.4版本。但那时,恐怕Scrapy又要升级了。

新版内容增加了100页,达到了365页。 https://www.packtpub.com/big-data-and-business-intelligence/learning-scrapy-second-edition

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Scrapy1.4最新官方文档总结 1 介绍·安装安装

    《Learning Scrapy》这本书是2016年1月出版的,作者使用的版本是Scrapy 1.0.3。 现在,Scrapy的最新版本是1.4。 ? Scra...

    SeanCheney
  • 《Learning Scrapy》(中文版)第1章 Scrapy介绍HelloScrapy喜爱Scrapy的其它理由关于此书:目标和用法掌握自动抓取数据的重要性开发高可靠高质量的应用 提供真实的开发进

    本书作者使用的Scrapy版本是1.0.3。感兴趣的话,还可以看看Scrapy1.4最新官方文档总结。 ---- ? 下载本书代码:https://git...

    SeanCheney
  • Learning Scrapy 第二版

    下载链接:https://share.weiyun.com/5LZAI1S 《Learning Scrapy》的第二版马上就要正式出版了(2018年6月11日)...

    SeanCheney
  • 爬虫(109)接下来的计划,终极爬虫框架 Scrapy 学习

    是时候该告一段落了,每天上完班,真的很累,但是还是坚持学习一点 关于 python 爬虫的知识,虽然很累,但是收获的是满满的知识,当然也收获一点点小小的收入,喜...

    公众号---志学Python
  • Scrapy(1)概念预览

    Scrapy是一个用Python编写的快速,开放源代码的Web爬网框架,用于在基于XPath的选择器的帮助下从网页中提取数据

    公众号---志学Python
  • Scrapy1.4最新官方文档总结 1 介绍·安装安装

    《Learning Scrapy》这本书是2016年1月出版的,作者使用的版本是Scrapy 1.0.3。 现在,Scrapy的最新版本是1.4。 ? Scra...

    SeanCheney
  • Python3网络爬虫(五):Python3安装Scrapy

    运行平台:Windows Python版本:Python3.x IDE:Sublime text3 一、Scrapy简介     Scrapy是一个为...

    Jack_Cui
  • Python | Python学习之初识Scrapy

    Scrapy使用 Python 实现的一个开源爬虫框架,Scrapy基于 twisted这个高性能的事件驱动网络引擎框架,Scrapy爬虫拥有很高的性能。

    咸鱼学Python
  • 爬虫篇 | 高级爬虫(一):Scrapy爬虫框架的安装

    Scrapy是一个爬虫框架,通过这个爬虫框架,我们能很快的构建出一个强大的爬虫工具! 一般大型爬虫服务都会使用Scrapy 进行爬虫,我们甚至在这个框架基础上...

    叫我龙总
  • 高级爬虫(一):Scrapy爬虫框架的安装

    Hi 小伙伴们差不多有半个月没有更新干货了,一直有点忙,而且这中间还有曲折过程,也就没有更新文章. 但今天无论如何也要更新一篇文章,接下来是爬虫高级篇重点讲解的...

    叫我龙总

扫码关注云+社区

领取腾讯云代金券