前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >在Scrapy中如何利用CSS选择器从网页中采集目标数据——详细教程(下篇)

在Scrapy中如何利用CSS选择器从网页中采集目标数据——详细教程(下篇)

作者头像
Python进阶者
发布2020-11-03 11:16:16
2.6K0
发布2020-11-03 11:16:16
举报
文章被收录于专栏:Python爬虫与数据挖掘

点击上方“Python爬虫与数据挖掘”,进行关注

/前言/

前几天给大家分享了Xpath语法的简易使用教程,没来得及上车的小伙伴可以戳这篇文章:在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程(上篇)在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程(下篇)在Scrapy中如何利用CSS选择器从网页中采集目标数据——详细教程(上篇)。之前还给大家分享了在Scrapy中如何利用CSS选择器从网页中采集目标数据——详细教程(上篇),没来得及上车的小伙伴可以戳进去看看,今天继续上篇的内容往下进行。

/实际应用/

9、根据点赞数采集的方法,我们可以很快的定位到收藏数,如下图所示。

其中标签“bookmark-btn”具有全局唯一性,可以定位到收藏数。可以看到收藏数是存在一个字符串中,所以当提取到数据之后,还需要利用正则表达式对其进一步的提取。

10、根据网页结构,我们写出CSS表达式,如下图所示。

11、不过我们需要的是其中的数字,这时候就可以利用正则表达式进行匹配,在Pycharm中进行调试,代码也很简单,如下图所示。

尔后将该代码放入到爬虫主体文件中即可,记得将“15 收藏”这部分替换成collection_num即可。

12、定位到a标签下的href属性,然后找到span标签,尔后便可以提取评论数,如下图所示。

13、根据网页结构,并在scrapyshell下调试,如下图所示。

14、同收藏数一样,仍然要以正则表达式的形式去匹配数字,可以直接复制收藏数的代码,然后将收藏数collection_num改为评论数的comment_num即可。

15、正文内容在“entry”标签下,如下图所示,可以很方便的进行提取。

16、之后在scrapyshell调试,可以得到内容的CSS表达式,其比Xpath表达式更加简洁一些,如下图所示。

17、到这里,该网页中的信息提取的差不多了,结合上面的分析和CSS表达式,我们得到的整体代码如下图所示。

18、尔后在Pycharm中进行Debug调试,查看代码中获取的内容,如下图所示。

19、下图是控制台部分显示出的变量结果,与代码中显示的内容和网页上的信息都是保持一致的。

至此,关于CSS表达式的具体应用教程先告一段落。

/小结/

总体来看,CSS选择器的使用大致步骤和Xpath选择器一模一样,都是需要利用F12快捷键来审查网页元素,尔后分析网页结构并进行交互,然后根据网页结构写出CSS表达式,习惯性的结合scrapyshell进行调试,得到调优的表达式,写入爬虫文件中去,最后执行爬虫程序或者Debug调试查看最终的数据采集结果。

只不过CSS表达式和Xpath表达式在语法上有些不同,对前端熟悉的朋友可以优先考虑CSS选择器,当然小伙伴们在具体应用的过程中,直接根据自己的喜好去使用相关的选择器即可。

想学习更多关于Python的知识,可以参考学习网址:http://pdcfighting.com/,点击阅读原文,可以直达噢~

------------------- End -------------------

往期精彩文章推荐:

欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群

万水千山总是情,点个【在看】行不行

/今日留言主题/

随便说一两句吧~~

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-10-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python爬虫与数据挖掘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档