前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一日一技:使用Scrapy的选择器来解析HTML

一日一技:使用Scrapy的选择器来解析HTML

作者头像
青南
发布2019-01-09 15:57:08
1.7K0
发布2019-01-09 15:57:08
举报
文章被收录于专栏:未闻Code未闻Code

在使用Scrapy抓取网站的时候,可能会遇到这样的情况,网站返回一个JSON字符串。在JSON字符串中又有一项,它的值是HTML。

如果不用Scrapy,我们一般使用lxml来解析HTML:

代码语言:javascript
复制
from lxml.html import fromstring

selector = fromstring(HTML)
name = selector.xpath('xxxx')

如果使用Scrapy解析网站直接返回的HTML,我们使用response即可:

代码语言:javascript
复制
def parse(self, response):
    name = response.xpath('xxx').extract()

那么现在问题来了。如果想使用Scrapy解析JSON返回的HTML,难道还有再单独用上lxml吗?显然不需要,可以使用Scrapy的Selector模块:

代码语言:javascript
复制
from scrapy.selector import Selector

selector = Selector(text='你获得的HTML')
name = selector.xpath('xxxx').extract()
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-11-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未闻Code 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档