首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Python爬虫之基本原理

网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

03

[物联网]2.4 存储数据--数据库

数据库的作用 数据库的作用是保存并灵活运用数据(图 2.25)。除此之外,其作用还包括从保存的数据中找出与所指定条件相符的数据。另外,数据库还能把多条数据连在一起,把它们作为一个数据取出。 打个比方,已知与特定传感器相关的 ID,测量时间,以及温度传感器的值。光凭这些数据,是无法理解数据指的是哪个房间的温度的。因此就需要传感器的 ID 以及跟房间名字有关的数据。把这两条数据加在一起,才能知道某房间的温度。 图 2.25 展示的是一个叫作 RDB(关系数据库)的数据库。最近,除了 RDB 以外还出现了一种叫作 NoSQL 的数据库。 RDB 用一种叫作 SQL 的专门用来操作数据库的语言来保存和提取数据。另一方面, NoSQL 则是用 SQL 以外的各种方法来操作数据库。 本书还会介绍键值存储( Key-Value Store,简称 KVS)和文档型数据库等种类的数据库。

02
领券