在前几篇关于爬虫的文章中学记,给大家断断续续解释了一下爬虫的知识。在学习任何大量新的知识时候,都最好抽一段时间复习一下,巩固之前的知识。
这篇文章,就来复习一下爬虫的相关知识。
爬虫的功能
爬虫用来收集网络上的各种信息,并将其存储到用户本地的数据库中,使得使用者可以快速便捷的找到各种信息。
爬虫访问网站的过程会消耗目标系统资源。以此访问页面,爬虫从统一资源地址(URL)列表。获取资源并保存在本地。
爬虫的流程
1.确定需要获取的网页
2.在本地创建数据库,并获取端口和管理员账号
3.编写爬虫代码,载入相关模块
4.设定爬取的网页,以及编码模式
5.在获取的资源中提取有效资源
6.将有效资源存储在本地的数据库当中,待之后使用
简单总结起来就是,爬取,解析,存储。
爬虫的插件
Chrome Developer Tools:谷歌浏览器内置的开发者工具。
POSTMAN:功能强大的网页调试与RESTful请求工具。
HTTPie:命令行HTTP客户端。
BuiltWith:识别网站所用技术的工具。
python-whois:查询网站所有者的工具。
robotparser:解析robots.txt的工具。
爬虫的注意事项
请遵守爬取网站的规则,遵纪守法。
如果想学习更多科技知识,可以点击关注。
如果对文章中的内容有什么困惑的地方,可以在评论区提出自己的问题,学记同大家一起交流,解决各种问题,一起进步。
青年学记 陪伴着各位青年
作者:青年学记 一名不断进步的程序猿
一起学习 一起进步
走向自立
领取专属 10元无门槛券
私享最新 技术干货