爬虫课堂(十八)|编写Spider之使用Selector提取数据

上个章节说到从Spider的角度来看,爬取的运行流程如下循环:

  • 以初始的URL初始化Request,并设置回调函数。当该Request下载完毕并返回时,将生成Response,并作为参数传给该回调函数。
  • 在回调函数内分析返回的(网页)内容,返回Item对象或者Request或者一个包括二者的可迭代容器。返回的Request对象之后会经过Scrapy处理,下载相应的内容,并调用设置的callback函数(函数可相同)。
  • 在回调函数内,可以使用选择器(Selectors) 来分析网页内容,并根据分析的数据生成Item。
  • 最后,由Spider返回的Item将被存到数据库或存入到文件中。

可以看出来使用Selector来分析提取网页内容是在编写Spider中必不可少,同时也是最重要的工作之一,这一章节我们就来学习使用Selector如何提取网页数据。 一、选择器(Selectors)介绍 当抓取网页时,做的最常见的任务是从HTML源码中提取数据。在Python中常用以下库处理这类问题:

  • BeautifulSoup BeautifulSoup是在程序员间非常流行的网页分析库,它基于HTML代码的结构来构造一个Python对象,对不良标记的处理也非常合理,API简洁易用,但解析速度较慢。
  • lxml lxml是一个基于 ElementTree (不是Python标准库的一部分)的Python化的XML解析库(也可以解析HTML),它解析速度较快,API较复杂。

Scrapy结合上面两者优点自己实现了提取数据的一套机制,它们被称作选择器(seletors)。Scrapy选择器构建于 lxml 库之上,并简化了API接口。 Scrapy选择器包括XPath和CSS两种。XPath是一门用来在XML文件中选择节点的语言,也可以用在HTML上。CSS 是一门将HTML文档样式化的语言。 二、XPath选择器介绍及使用 关于XPath选择器的介绍和使用详见之前写的文章:爬虫课程(八)|豆瓣:十分钟学会使用XPath选择器提取需要的元素值 三、CSS选择器介绍及使用 3.1、CSS选择器介绍 和XPath选择器比起来,CSS选择器的语法比XPath更简单一些,但功能不如XPath强大。相对来说,前端工程师可能会更加喜欢使用CSS选择器,同时它的使用方式跟写.css时方法基本一样。 CSS的基本语法如下表所示:

选择器

例子

例子描述

*

*

选择所有元素

#id

#container

选择id=“container”的所有元素

.class

.container

选择class=“container”的所有元素

element

p

选择所有 <p> 元素。

element,element

div,p

选择所有 <div> 元素和所有 <p> 元素

element element

li a

选择 <li> 元素内部的所有 <a> 元素

element>element

div>p

选择父元素为 <div> 元素的所有 <p> 元素

element element

div+p

选择紧接在 <div> 元素之后的所有 <p> 元素

[attribute]

[target]

选择带有 target 属性所有元素

[attribute=value]

[target=_blank]

选择 target="_blank" 的所有元素

[attribute~=value]

[title~=flower]

选择 title 属性包含单词 "flower" 的所有元素

[attribute|=value]

[lang|=en]

选择 lang 属性值以 "en" 开头的所有元素

:link

a:link

选择所有未被访问的链接

:first-child

p:first-child

选择属于父元素的第一个子元素的每个 <p> 元素

element1~element2

p~ul

选择前面有 <p> 元素的每个 <ul> 元素

[attribute^=value]

a[src^="https"]

选择其 src 属性值以 "https" 开头的每个 <a> 元素

[attribute$=value]

a[src$=".pdf"]

选择其 src 属性以 ".pdf" 结尾的所有 <a> 元素

[attribute*=value]

a[src*="abc"]

选择其 src 属性中包含 "abc" 子串的每个 <a> 元素

:empty

p:empty

选择没有子元素的每个 <p> 元素(包括文本节点)

:nth-child(n)

p:nth-child(2)

选择属于其父元素的第二个子元素的每个 <p> 元素

:nth-last-child(n)

p:nth-last-child(2)

同上,从最后一个子元素开始计数

::text

p::text

选择<P>元素的文本节点(Text Node)

3.2、CSS选择器使用 还是以提取豆瓣读书书籍信息为例:

豆瓣读书书籍信息

我要选择<ul>元素并且class=“cover-col-4 clearfix”下的li元素。 使用XPath为: book_list = sel.xpath('//ul[@class="cover-col-4 clearfix"]/li') 使用CSS为: book_list = sel.css('ul.cover-col-4.clearfix li')

其他的更多使用方式,我在后面的实战章节详细讲解下。 四、其他 有兴趣的可以查看下Selector对象源码。

Selector对象的源码

从源码中,发现当调用Selector对象的CSS方法时,在其内部会将CSS选择器表达式翻译成XPath表达式,然后调用Selector对象的XPath方法。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏超然的博客

HTML5 data-* 自定义属性

  在HTML5中添加了data-*的方式来自定义属性,所谓data-*实际上上就是data-前缀加上自定义的属性名,使用这样的结构可以进行数据存放。使用dat...

1372
来自专栏影子

jQuery中的常用内容总结(一)

1183
来自专栏海天一树

小朋友学Python(5):引号、多行语句、注释

一、引号 Python 可以使用引号( ' )、双引号( " )、三引号( ''' 或 """ ) 来表示字符串。其中三引号可以由多行组成。 例1 str1 =...

3468
来自专栏python学习路

五、XML与xpath--------------爬取美女图片 先用一个小实例开头吧(爬取贴吧每个帖子的图片)XML 和 HTML 的区别XML文档示例

除了正则表达式处理HTML文档,我们还可以用XPath,先将 HTML文件 转换成 XML文档,然后用 XPath 查找 HTML 节点或元素。 ----  先...

3754
来自专栏技术墨客

React学习(1)——JSX语法与React组件

    上面这段有趣的例子既不是标准的JavaScript也不是HTML,它就是我们接下来要介绍的JSX的语法,是一种JavaScript的扩展。在React中...

885
来自专栏彭湖湾的编程世界

【Vue】详解Vue组件系统

Vue渲染的两大基础方式 new 一个Vue的实例 这个我们一般会使用在挂载根节点这一初始化操作上: new Vue({ el: '#app' }) 注册组...

30511
来自专栏前端儿

简单的鼠标可拖动DIV 兼容IE/FF

一个div,注册监听onmousedown事件,然后处理获取的对象及其相关值(对象高度,clientX/clientY位置等)

1511
来自专栏LIN_ZONE

Vue.js——60分钟快速入门(转载) Vue.js介绍声明该文是转载的,欢迎转载,支持尊重版权,原文作者:keepfool,原文地址:http://www.cnblogs.com/keepfo

Vue.js是当下很火的一个JavaScript MVVM库,它是以数据驱动和组件化的思想构建的。相比于Angular.js,Vue.js提供了更加简洁、更易于...

1252
来自专栏老司机的简书

老司机读书笔记——Vue学习笔记

在默认情况下,v-model 在每次 input 事件触发后将输入框的值与数据进行同步 (除了上述输入法组合文字时)。你可以添加 lazy 修饰符,从而转变为使...

1683
来自专栏Coding01

推荐一款快速制作表单的微信小插件

今天又到分享微信小插件的时间了。只要你的小程序有提交信息的地方,你就避免不了使用「表单」功能。

5995

扫码关注云+社区

领取腾讯云代金券