Django messages 消息(下)
一、爬虫
网络爬虫、网络机器人,是一种按照一定的规则、自动请求万维网网站并提取网络数据的程序或脚本。
有哪些获取数据的方式?
二、分类
将爬取对象从一些种子 URL 扩充到整个网络,主要用途是为门户站点搜索引擎和大型 Web 服务提供商采集数据。
选择性的爬取那些与预先定义好的主题相关的页面。
从某一个时间点开始,通过遍历的方式爬取系统所允许存储和处理的所有网页。
在具有一定规模的网络页面集合的基础上,采用更新数据的方式选取已有集合中的过时网页进行爬取,保证爬取到的数据与真实网络数据足够接近。
在传统搜索引擎可以索引的页面,以超链接可以达到的静态网页为主构成的 Web 页面。
大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的 Web 页面。