首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python爬虫基本介绍

1.什么是爬虫

爬虫是按照一定规则,自动对互联网上的数据进行抓取的程序或脚本。分为通用爬虫和聚焦爬虫。

2.通用爬虫

通用爬虫是搜索引擎抓取系统(如百度,谷歌等)的重要组成部分。主要功能是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。

搜索引擎爬虫的基本工作流程如下:

选取一部分URL,将这些URL放到待抓取URL队列

取出待抓取URL队列中的URL,将URL对应的网页下载下来,存储到网页库,并将这些URL放入已抓取URL队列

对已抓取URL队列中URL页面进行分析,得到其中的其他URL,将其放入待抓取URL队列,回到第2步继续执行

搜索引擎如何获得新网站的URL:

新网站向搜索引擎主动提交网址,百度链接提交地址:http://www.baidu.com/search/url_submit.html

在其他网站上添加自己的新网站URL,当搜索引擎爬虫对其他网站进行爬取时,会自动获取你的新网站URL,并对其进行爬取

搜索引擎和DNS解析服务商进行合作,如果你的新网站有域名,那么将会被搜索引擎迅速抓取

搜索引擎不能处理图片、视频、Flash等非文字内容,也不能执行脚本和程序

3.聚焦爬虫

聚焦爬虫:从互联网上抓取数据,并对内容进行处理筛选

4.爬虫的抓取过程:

确定需要爬取的网站或内容

模拟浏览器发送http请求,获取服务器响应数据

对数据进行筛选,取出需要的数据

对数据进行处理,存储或使用

5.爬虫基础学习需要掌握的技术:

Python的基础语法,HTML基础,HTTP协议基础

HTML页面抓取:

urllib、urllib2、requests:模拟浏览器发送http请求,获取服务器响应结果

HTML页面数据处理:

re、xpath、BeautifulSoup4、jsonPath:对数据进行筛选,取出需要的数据

:以上知识点会在接下来的爬虫系列一一介绍,在完全掌握了以上知识点后,则可以使用爬虫对互联网上的数据进行抓取和处理。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180212G160DA00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券