爬虫学过的知识遗忘怎么办？来复习

文章来源：企鹅号 - 青年学记

在前几篇关于爬虫的文章中学记，给大家断断续续解释了一下爬虫的知识。在学习任何大量新的知识时候，都最好抽一段时间复习一下，巩固之前的知识。

这篇文章，就来复习一下爬虫的相关知识。

爬虫的功能

爬虫用来收集网络上的各种信息，并将其存储到用户本地的数据库中，使得使用者可以快速便捷的找到各种信息。

爬虫访问网站的过程会消耗目标系统资源。以此访问页面，爬虫从统一资源地址（URL）列表。获取资源并保存在本地。

爬虫的流程

1.确定需要获取的网页

2.在本地创建数据库，并获取端口和管理员账号

3.编写爬虫代码，载入相关模块

4.设定爬取的网页，以及编码模式

5.在获取的资源中提取有效资源

6.将有效资源存储在本地的数据库当中，待之后使用

简单总结起来就是，爬取，解析，存储。

爬虫的插件

Chrome Developer Tools：谷歌浏览器内置的开发者工具。

POSTMAN：功能强大的网页调试与RESTful请求工具。

HTTPie：命令行HTTP客户端。

BuiltWith：识别网站所用技术的工具。

python-whois：查询网站所有者的工具。

robotparser：解析robots.txt的工具。

爬虫的注意事项

请遵守爬取网站的规则，遵纪守法。

如果想学习更多科技知识，可以点击关注。

如果对文章中的内容有什么困惑的地方，可以在评论区提出自己的问题，学记同大家一起交流，解决各种问题，一起进步。

青年学记陪伴着各位青年

作者：青年学记一名不断进步的程序猿

一起学习一起进步

走向自立

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货