巅峰迎来虚伪的看客,黄昏见证真正的信徒。不以盛名而来,不以负名而去。
Python系列写完后,想趁热打铁将爬虫系列也写了,这样大家以后也可以爬爬图片,音乐,视频啥的也方便,小**的视频也可哦
,嘻嘻。
Python爬虫,顾名思义是爬取信息的。在大数据时代,信息的获取是非常重要的,它甚至可以决定一个公司的发展方向和未来。如果将互联网比作一张大网,那么获取信息就需要在这张大网里面捞取,这种做法也被称作为搜索引擎,那么百度搜狗便是这种做法。
学习爬虫,首先得先培养爬虫的思想,比如网络上的文本,图片,视频等等,其实都是由“某个东西”保存起来的,然后通过网络返回给用户。
可能会有小伙伴对“某个东西”感到好奇,这里引用一个概念,叫做URL,可以将URL简单理解为找到“某个东西”所需要的路线,即大家平常所说的网址或链接。
URL:统一资源定位系统(uniform resource locator;URL)是因特网的万维网服务程序上用于指定信息位置的表示方法。URL也可以称为是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。URL是通用的资源定位符,URI同样也是资源定位符,由于URL包括URI,且URL适用范围广,所以URL就占了上风,爬虫是要有爬取的信息目标的,而目标就是URL包含的文件信息,这样就不难理解为什么爬虫一定要有确切的网址才能爬取到该文件了。
那么爬虫简单来说就是某个虫子顺着这个路线找到我们想要的东西,然后将其解析,提取出来。
那么如何找到URL呢,通常Chrome和火狐按F12可以进入开发者模式,然后找到Network,再在Name里面随便找个文件打开,如果没有刷新出文件,在原先的网页上刷新即可。点击某个文件,就可以看到下图中的Request URL,即该网址的初始URL,当然URL的加解密也会导致URL的不同,这就要靠以后去学啦。
(Python爬虫系列)未完待续...