开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

Python-数据挖掘

共 4 篇文章

1

Python-数据挖掘-请求与响应

2

Python-数据挖掘-请求伪装

3

Python-数据挖掘-搜索引擎

4

Python-数据挖掘-初识

清单首页 Python-数据挖掘文章详情

清单「 Python-数据挖掘」 04/04

Python-数据挖掘-初识

Django messages 消息（下）

一、爬虫

网络爬虫、网络机器人，是一种按照一定的规则、自动请求万维网网站并提取网络数据的程序或脚本。

有哪些获取数据的方式？

企业产生的数据
数据平台购买的数据
政府/机构公开的数据
数据管理咨询公司的数据
爬取的网络数据

二、分类

通用爬虫

将爬取对象从一些种子 URL 扩充到整个网络，主要用途是为门户站点搜索引擎和大型 Web 服务提供商采集数据。

聚焦爬虫

选择性的爬取那些与预先定义好的主题相关的页面。

累积式爬虫

从某一个时间点开始，通过遍历的方式爬取系统所允许存储和处理的所有网页。

增量式爬虫

在具有一定规模的网络页面集合的基础上，采用更新数据的方式选取已有集合中的过时网页进行爬取，保证爬取到的数据与真实网络数据足够接近。

表层爬虫

在传统搜索引擎可以索引的页面，以超链接可以达到的静态网页为主构成的 Web 页面。

深层爬虫

大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的 Web 页面。

举报