首页
学习
活动
专区
圈层
工具
发布

Python-数据挖掘-初识

Django messages 消息(下)

一、爬虫

网络爬虫、网络机器人,是一种按照一定的规则、自动请求万维网网站并提取网络数据的程序或脚本。

有哪些获取数据的方式?

  • 企业产生的数据
  • 数据平台购买的数据
  • 政府/机构公开的数据
  • 数据管理咨询公司的数据
  • 爬取的网络数据

二、分类

  • 通用爬虫

将爬取对象从一些种子 URL 扩充到整个网络,主要用途是为门户站点搜索引擎和大型 Web 服务提供商采集数据。

  • 聚焦爬虫

选择性的爬取那些与预先定义好的主题相关的页面。

  • 累积式爬虫

从某一个时间点开始,通过遍历的方式爬取系统所允许存储和处理的所有网页。

  • 增量式爬虫

在具有一定规模的网络页面集合的基础上,采用更新数据的方式选取已有集合中的过时网页进行爬取,保证爬取到的数据与真实网络数据足够接近。

  • 表层爬虫

在传统搜索引擎可以索引的页面,以超链接可以达到的静态网页为主构成的 Web 页面。

  • 深层爬虫

大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的 Web 页面。

举报
领券