首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >「经验」爬虫在工作中的实战应用『理论篇』

「经验」爬虫在工作中的实战应用『理论篇』

作者头像
小火龙说数据
发布2022-06-30 16:58:37
2940
发布2022-06-30 16:58:37
举报
文章被收录于专栏:小火龙说数据小火龙说数据

预计阅读时间:5min

解决痛点:很多同学对于爬虫会有一些疑惑,小火龙希望用简单的语言向你说明爬虫的基本原理,以及如何通过一段简单的代码实现,帮助你尽快上手,文章聚焦于爬虫初学者。

00

序言

爬虫是什么?有哪些应用场景?实现需要几步?通过代码如何实现?

如果你有以上疑惑,相信本篇文章可以帮助到你。介于篇幅原因,本篇先和大家分享前三点,代码实现会在下篇推给大家。

01

爬虫是什么?

首先谈谈什么是爬虫。当下,我们处在一个信息膨胀的时代,要想全面收集某方面的资料,需要将网络上各种信息抓取到本地,进行信息整合。这种 “自动请求网站并提取网站信息的程序”称为爬虫。

这里大家是否会有两个疑问:

1、 爬虫可以爬取哪些内容?

只要是在网站上可以看到的内容理论上都可以爬取下来,例如:文字、图片、音频、视频等。

2、 爬虫是否违法?

爬虫是一种技术,技术相当于工具,工具本身是不违法的。但如果某些人利用工具去做违法的事情,那就另当别论了。爬虫需要满足以下规范:

  • 遵守Robots协议:该协议是存放在网络根目录下的文件,指引网站哪些内容是可以获取,哪些内容是不可以获取,类似于“法律文书”。
  • 远离非法获利:恶意爬取竞对数据,牟取不正当利益,则可能触犯法律。
  • 避免对服务器造成损害:如果爬虫规模较大,导致对方网站瘫痪,这属于网站攻击范畴,可能涉及违法。

02

爬虫应用场景

爬虫有哪些应用场景?对于我们日常工作、生活又有哪些帮助?列举几点常见的方向:

  • 搜索引擎优化:我们熟知的搜索引擎,其中一个环节就是网络爬虫,将各个网站最新的页面搬取过来,通过召回排序,展现在大家眼前。例如:百度、谷歌等。
  • 平台信息整合:网上购物过程中,某些网站能看到N多个平台的价格,这其实就是利用爬虫技术,将其他平台的价格归总过来,以便于平台自身定价以及供给消费者参考。例如:京东、苏宁等。
  • 应用数据分析:当我们希望将某网站信息抓取下来,分析一些我们想要的内容时,爬虫是必不可少的。例如:爬取链家数据,分析二手房价格趋势。
  • 抢票:你是否遇到过,春运、演唱会门票秒没的情况?这中间可能会有黄牛,利用爬虫软件,模拟人的行为,达到抢票的目的。而为了防止黄牛的这种行为,很多网站也会做反爬虫处理,提高爬虫成本。

03

爬虫常见步骤

到这里,你是否跃跃欲试,想要自己动手码一个爬虫呢?这里小火龙和大家分享一个相对通用的爬虫步骤,供大家参考:

步骤一:找到需要爬取的网站URL。例如:链家。

步骤二:查看网页源代码(HTML)。通过 F12 快捷键可进入。

步骤三:找到要爬取内容的位置。例如:房屋价格。

步骤四:通过Python代码实现网站请求、抓取、解析。下一篇『实现篇』分享代码。

步骤五:将爬取内容存储到本地

以上就是本期的内容分享。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-06-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小火龙说数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档