Python Scrapy抓取已发布的博客信息【开发闲谈】原创

2021-10-202021-10-20 10:22:00播放1.2K

点赞0 收藏 0

用Python Scrapy抓取已发布的博客信息。不想手动复制粘贴，写了个小功能。一家之言，仅当参考

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
大家好，欢迎来看开发闲谈，最近在博客网站发布了一些博客，总共有40多篇。查看这些博客的时候需要翻页，不是非常的方便，想要弄出一个列表，看看自己到底发了哪些博客，列表里把标题和链接展示出来，如果手动去复制粘贴就比较耗时耗力，于是开始想有什么自动化的方法，想到我以前用Python做过抓取的功能，那我们就来试一下。我的电脑上已经装有PYTH社区版，用的是PYTHON3，我打算用scray这个框架，先来它的官网看一眼。Y是一款强劲的爬虫框架，它上面也说明了如何安装和使用。我这里用的是PIP3，先给P换一个国内的语言，按照提示进行安装，我这里前面已经装好了，版本是2.5.1，接下来看目标画面。从一。
01:00
一到五一共有五页，以第一页为例，按F12查看内容，可以找到我们想要的元素，我们需要的就是title和hi，它们都是A标签的属性，外层是divv。接下来我们用下L工具来分析这个页面，输入指令sc cell，然后加上目标URL，要利用它的response对象，使用CSS方法获取class为blog me的div拿到了很多s select对象，用for循环来处理结果，比如打印出每个item的信息，Item也是s select同样可以用CSS方法，然后调用提取方法拿到结果的列表，最后再把内容取出来就可以了，这样我们就得到了标题。同理，提取hi也是用类似的方法。
02:00
调试完毕，接下来写派代码，找个地方新建SPA工程，可以看到多了一个block目录，接下来写我们自己的字蛛，在这个目录里新建一个Python文件，文件名就叫HW。为了方便，这里直接去复制之前写好的代码，在博客里找到我们想要的代码，然后整个复制一下，粘贴到刚才我们新建的Python文件里，这样蜘蛛就准备好了，新建一个目录拿来装结果用命令启动我们的HW自助，看看我们得到了什么，获取到的标题和链接写到了mad文件里，回头来简单的看一下我们的代码，Name是蜘蛛的名字，我们启动的时候会用到它，这个名字可以自由定义is Li用来暂存结果。total URL表示页面的总数，IQ com表示请求的次数。在star方法里，我们进行了一些准备，比如这里准备U。
03:19
还有下面这里发起请求pass是回调函数，请求成功后走这个方法，我们前面用到的提取内容的方法就可以写在这里，所有的请求完成后就可以写M文件，对结果做了一个排序，这里是根据数据的页码来排的，也可以按照你喜欢的方式来排，最后写入model文件即可。总结一下，这是Python sc的一次简单应用，先分析我们的需求，找到合适的工具，然后摸清楚工具的使用方法，再来分析我们的目标，最后呢，利用工具得到我们想要的结果，完成任务。感谢大家观看，我们下期再见。

展开

我来说两句

0 条评论

登录后参与评论

作者

AnRFDev

【合辑】开发闲谈

（1/2）

4分6秒

Python Scrapy抓取已发布的博客信息【开发闲谈】

1.2K0

2分5秒

怎么尽可能地展示很多网址？Python ECharts Html【开发闲谈】02

1.2K0

Python Scrapy抓取已发布的博客信息【开发闲谈】原创

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐