前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【技术创作101训练营】Python网络爬虫的概念和基本原理

【技术创作101训练营】Python网络爬虫的概念和基本原理

原创
作者头像
Python进阶者
修改2021-01-20 10:10:10
7010
修改2021-01-20 10:10:10
举报
Python网络爬虫的概念和基本原理.pptx

演讲文稿:

开场

我叫大家好,我是Python进阶者,经常看《Python爬虫与数据挖掘》公众号的小伙伴,对这个名字应该耳熟能详了吧?今天借腾讯云+社区这个机会,给大家简单分享下Python网络爬虫的概念和基本原理,本次内容讲的毕竟泛一些,很多细节方面,不做赘述,不足之处,还望大家海涵。

本次分享的内容主要可分为三块:

  • 网络爬虫背景
  • 基本概念
  • 基本原理

背景

首先我们来了解下背景,众所周知,随着计算机、互联网、物联网、云计算等网络技术的风起云涌,网络上的信息呈爆炸式增长。毋庸置疑,互联网上的信息几乎囊括了社会、文化、政治、经济、娱乐等所有话题。

使用传统数据收集机制(如问卷调查法、访谈法)进行捕获和采集数据,往往会受经费和地域范围所限,而且还会因其样本容量小、信度低等因素导致收集的数据往往与客观事实有所偏颇,有着较大的局限性。这时候网络爬虫作为一个强大的数据采集神器应运而生了。下面一起来看看网络爬虫的荣耀时刻吧!

网络爬虫通过统一资源定位符URL (Uniform ResourceLocator)来查找目标网页,将用户所关注的数据内容直接返回给用户,并不需要用户以浏览网页的形式去获取信息,为用户节省了时间和精力,并提高了数据采集的准确度,使用户在海量数据中游刃有余。网络爬虫的最终目的就是从网页中获取自己所需的信息。虽然利用urllib、urllib2、re等一些爬虫基本库可以开发一个爬虫程序,获取到所需的内容,但是所有的爬虫程序都以这种方式进行编写,工作量未免太大了些,所有才有了爬虫框架。使用爬虫框架可以大大提高效率,缩短开发时间。

了解了网络爬虫背景和网络爬虫的用途之后,接下来我们一起来了解它的概念知识吧。

基本概念

网络爬虫(web crawler)又称为网络蜘蛛(web spider)或网络机器人(web robot),另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或蠕虫,同时它也是“物联网”概念的核心之一。网络爬虫本质上是一段计算机程序或脚本,其按照一定的逻辑和算法规则自动地抓取和下载万维网的网页,是搜索引擎的一个重要组成部分。

刚刚讲到了网络爬虫的逻辑和算法规则,下面来给大家分享下网络爬虫的基本原理吧!

基本原理

字不如表,表不如图,这里给大家画出了一个网络爬虫流程简图,可以看到原理图部分。一般来说的话,网络爬虫是根据预先设定的一个或若干个初始网页的URL开始,然后按照一定的规则爬取网页,获取初始网页上的URL列表,之后每当抓取一个网页时,爬虫会提取该网页新的URL并放入到未爬取的队列中去,然后循环的从未爬取的队列中取出一个URL再次进行新一轮的爬取,不断的重复上述过程,直到队列中的URL抓取完毕或者达到其他的既定条件,爬虫才会结束。

总结

以上我们简单阐述了网络爬虫的背景、基本概念和基本原理,下面我们来简单总结下。

随着互联网信息的与日俱增,利用网络爬虫工具来获取所需信息必有用武之地。使用网络爬虫来采集信息,不仅可以实现对web上信息的高效、准确、自动的获取,还利于公司或者研究人员等对采集到的数据进行后续的挖掘分析。

以上就是本次为大家分享的内容了,感谢大家的耐心聆听,觉得不错,记得点个赞噢!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 演讲文稿:
    • 开场
      • 背景
        • 基本概念
          • 基本原理
            • 总结
            相关产品与服务
            腾讯问卷
            腾讯问卷是专业的在线问卷调查平台,支撑了腾讯核心业务的⽤户、市场、产品研究工作。平台提供基于数据收集的专业调查研究解决方案,覆盖问卷调查、信息上报、在线测评、在线考试、360度评估、投票打卡等工作场景,致力于为客户提供高效的洞察决策工具。同时平台还拥有超百万级的真实样本用户,可以提供高效、精准的问卷有偿投放服务。
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档