本篇博文主要介绍网络爬虫的基本概念、工作原理以及开发环境。
我们为什么要了解网络爬虫? 因为当今从事科学研究等,需要大量的数据,但是这些数据公开的又非常的少,大量的数据都在大公司的手中。我们这些普通人本身并没有那么多数据,但是我们又需要大量的数据。那么,这时我们就需要用到网络爬虫了。
网络爬虫英文名叫Web Crawler(又称Web Spiader),是一种自动浏览网页并采集你所需要的信息的程序,被广泛用于互联网搜索引擎(称为通用爬虫)。随着互联网的发展,爬虫技术不再局限于搜索领域,任何人都可以利用爬虫技术从互联网上获取自己想要的信息,如爬取电子书、商品价格等(称为垂直爬虫)。
何谓网络爬虫:
爬取网页:
抽取信息
存储信息
网站website
API
流量数据
从工业角度看
从研究角度看
可在工业领域独当一面
可自己做研究
我们在使用网络爬虫时,需要遵守Robots协议。
①深度优先爬虫
②广度优先爬虫
①静态网页爬虫
②动态网页爬虫
①泛用爬虫
②主题爬虫
需要和实现有一部分我们需要用到辅助模块。
①爬取模块——从万维网上获取数据
②抽取模块——处理获取的数据抽取指定的信息
③数据存储模块——将抽取的信息存入指定格式的载体
④辅助模块——持久化、队列与多线程