首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

什么是爬虫?其运行原理是什么?只有Python才可以吗?

爬虫是什么?

本文所说的爬虫不是自然界中的爬行动物,而是运行在网络中的一个自动处理信息的程序。

爬虫是一个程序,该程序利用网络请求(HTTP/HTTPS)进行数据的筛选和录入。因为网络信息维度很广泛,像极了蜘蛛网,所以我们将利用网络请求进行数据筛选和录入的程序成为网络蜘蛛(网络爬虫)。

爬虫运行原理:

信息在网络上传递的载体大部分是网页数据。爬虫运行的原理就是将网页数据进行解析,去掉超文本标记语言(HTML)等,只保留有用的数据。

案例:

假设我们要从网络上爬取《送别》的歌词,网页如图图示,我们要爬取的内容是红色部分。

爬虫案例

  1. 首先我们分析页面的结构,从而找到了歌词所在的大致的div结构

找到div结构

进一步找到路径

获取路径信息

使用Selector解析工具进行数据解析。

源代码

爬虫为什么首先Python:

其实哪种语言都可以编写爬虫,只要该语言能够进行解析response,request等相关的网络请求就行。

Python进行爬虫开发是有其独特的优势,上手快,难度低,第三方插件很完善,开发难度低。这些优点是其他语言不能比拟的,所以Python是编写爬虫的首要语言。

我是一个爱游戏爱倒腾的Python程序猿,想知道哪些爬虫知识?请在下方留言,我会进行专门讲解哦~

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200826A0DHBQ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券