开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >【1】网络爬虫简介

【1】网络爬虫简介

作者头像

福贵

发布于 2018-04-12 14:54:03

6670

发布于 2018-04-12 14:54:03

举报

文章被收录于专栏：合集

网络爬虫何时有用

假设我们有一个鞋店，并且想要及时了解竞争对手的价格。我们可以每天访问他们的网站，与我们的价格进行对比。但是，如果我们店铺只能够的鞋类种类繁多，或者希望能够更加频繁地查看价格变化的话，就需要花费大量的时间，甚至难以实现。再举一个例子，我们看中了一双鞋，想要它促销时再购买。我们可以等待几个月的时间，我们才能如愿盼到这双鞋促销。上面的情况，是重复性的手工流程，这些都是我们可以利用爬虫技术来实现自动化处理的。

理想状态下，网络爬虫并不是一种必须品，这是因为每个网站都可能提供api，以结构化的方式共享他们的数据。然而在现实中，一些网站即使提供了api，依旧会限制我们抓取的速度，以及访问频率。这个时候我们就不能仅仅依靠api去得到我们所需要的在线数据，而应该利用网络爬虫技术。

背景调研

在深入研究一个网站之前，我们需要对目标网站的规模和结构有一定程度的了解。其中网站自身的robots.txt和Sitemap文件都可以提供一定的帮助，在此之外，一些工具可以给我们提供更加详细的信息，比如google搜索和WHOIS

帮助

访问网站的robots.txt文件，则只需要在网站的首页地址后面加上/robots.txt，举个栗子，如果我们要访问https:www.baidu.com的robots.txt文件，则只需要在地址栏这样填写https:www.baidu.com/robots.txt

google搜索的技巧（百度类似），只需在域名前面加上site:即可查看该域名下的所有网址，举个小栗子，在百度搜索框这样填写site:baidu.com

识别网站所用技术

网站所使用的技术类型也会对我们如何爬取产生影响，这里给大家安利一个非常有用的模块---builtwith

pip install builtwith即可安装，举个小栗子

找到网站的拥有者

对于有一些网站，我们可能需要关心它的拥有者。比如，我们已知网站的所有者会封禁网络爬虫，那我们则需要下载速度控制的更加保守一些，为了知晓网站的所有者，我们可以使用WHOIS协议查询域名的详细信息，给大家安利一个Python的封装库。pip install whois即可安装

最近开始专研Python爬虫了，人生苦短，我用python

~~网上有许多mysql的教程，但是大多数基础教程都是使用世界上最好的语言写的demo

所以我在学习时就将自己写的一些python小栗子记录了下来

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-03-26，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python与MySQL 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.