温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
大家好,欢迎来看开发闲谈,最近在博客网站发布了一些博客,总共有40多篇。查看这些博客的时候需要翻页,不是非常的方便,想要弄出一个列表,看看自己到底发了哪些博客,列表里把标题和链接展示出来,如果手动去复制粘贴就比较耗时耗力,于是开始想有什么自动化的方法,想到我以前用Python做过抓取的功能,那我们就来试一下。我的电脑上已经装有PYTH社区版,用的是PYTHON3,我打算用scray这个框架,先来它的官网看一眼。Y是一款强劲的爬虫框架,它上面也说明了如何安装和使用。我这里用的是PIP3,先给P换一个国内的语言,按照提示进行安装,我这里前面已经装好了,版本是2.5.1,接下来看目标画面。从一。
01:00
一到五一共有五页,以第一页为例,按F12查看内容,可以找到我们想要的元素,我们需要的就是title和hi,它们都是A标签的属性,外层是divv。接下来我们用下L工具来分析这个页面,输入指令sc cell,然后加上目标URL,要利用它的response对象,使用CSS方法获取class为blog me的div拿到了很多s select对象,用for循环来处理结果,比如打印出每个item的信息,Item也是s select同样可以用CSS方法,然后调用提取方法拿到结果的列表,最后再把内容取出来就可以了,这样我们就得到了标题。同理,提取hi也是用类似的方法。
02:00
调试完毕,接下来写派代码,找个地方新建SPA工程,可以看到多了一个block目录,接下来写我们自己的字蛛,在这个目录里新建一个Python文件,文件名就叫HW。为了方便,这里直接去复制之前写好的代码,在博客里找到我们想要的代码,然后整个复制一下,粘贴到刚才我们新建的Python文件里,这样蜘蛛就准备好了,新建一个目录拿来装结果用命令启动我们的HW自助,看看我们得到了什么,获取到的标题和链接写到了mad文件里,回头来简单的看一下我们的代码,Name是蜘蛛的名字,我们启动的时候会用到它,这个名字可以自由定义is Li用来暂存结果。total URL表示页面的总数,IQ com表示请求的次数。在star方法里,我们进行了一些准备,比如这里准备U。
03:19
还有下面这里发起请求pass是回调函数,请求成功后走这个方法,我们前面用到的提取内容的方法就可以写在这里,所有的请求完成后就可以写M文件,对结果做了一个排序,这里是根据数据的页码来排的,也可以按照你喜欢的方式来排,最后写入model文件即可。总结一下,这是Python sc的一次简单应用,先分析我们的需求,找到合适的工具,然后摸清楚工具的使用方法,再来分析我们的目标,最后呢,利用工具得到我们想要的结果,完成任务。感谢大家观看,我们下期再见。
我来说两句