首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

爬虫学过的知识遗忘怎么办?来复习

在前几篇关于爬虫的文章中学记,给大家断断续续解释了一下爬虫的知识。在学习任何大量新的知识时候,都最好抽一段时间复习一下,巩固之前的知识。

这篇文章,就来复习一下爬虫的相关知识。

爬虫的功能

爬虫用来收集网络上的各种信息,并将其存储到用户本地的数据库中,使得使用者可以快速便捷的找到各种信息。

爬虫访问网站的过程会消耗目标系统资源。以此访问页面,爬虫从统一资源地址(URL)列表。获取资源并保存在本地。

爬虫的流程

1.确定需要获取的网页

2.在本地创建数据库,并获取端口管理员账号

3.编写爬虫代码,载入相关模块

4.设定爬取的网页,以及编码模式

5.在获取的资源中提取有效资源

6.将有效资源存储在本地的数据库当中,待之后使用

简单总结起来就是,爬取解析存储

爬虫的插件

Chrome Developer Tools:谷歌浏览器内置的开发者工具。

POSTMAN:功能强大的网页调试与RESTful请求工具。

HTTPie:命令行HTTP客户端。

BuiltWith:识别网站所用技术的工具。

python-whois:查询网站所有者的工具。

robotparser:解析robots.txt的工具。

爬虫的注意事项

遵守爬取网站的规则遵纪守法

如果想学习更多科技知识,可以点击关注

如果对文章中的内容有什么困惑的地方,可以在评论区提出自己的问题,学记同大家一起交流,解决各种问题,一起进步。

青年学记 陪伴着各位青年

作者:青年学记 一名不断进步的程序

一起学习 一起进步

走向自立

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191231A0OSHA00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券