版权声明
本文首发于这个地儿
无需授权即可转载
最近因为工作需要,其实就是懒,想批量爬去element14网站上的元器件清单,就突击学习了一下爬虫,谁知道学习的过程中,发现爬虫这个事还真挺有意思,所以就把学习的心得在这里分享一下,这个分享可能是个持续的过程,也许会突然就结束,主要还是看我的时间安排,不过我会持续进行的,希望大家玩的开心。
爬虫原理
如果我上网看到喜欢的图片,我会怎么做?一般是打开网页,看到不错的图片,右键另存为,之后继续浏览,继续另存为,其实爬虫和这个过程一模一样,只不过通过程序来执行这些动作,速度会很快,极大的节省了时间,网上爬虫的教程也很多,写来写去其实就是这个事,只不过有些时候浏览网页这个事用程序来执行,会碰到很多限制,所以就有了很多的解决机制去突破这些限制,限制突破了之后,爬取的方法也就基本一致了
程序爬取网页资源,主要爬取的是网页源代码,然后通过解析源代码获得我们需要的数据,比如,我们浏览网页的时候看到的图片是这样的
程序浏览时看到的是这样的
我们需要做的就是通过程序分析这段网页源码,获取图片网址,访问图片网址,下载图片,存到指定的文件夹,这些就是爬虫-Spider。
程序语言
任何高级语言都可以去编写爬虫程序,目前使用最多的是Python,我也不知道为什么,也许是走的人多了,也就成了路,不管怎么说,学习爬虫用Python就对了,推荐使用的IDE是Pycharm,这也许是目前最好的集成开发环境,安装库极为方便,而且windows下的配置也非常简单,基本可以说没有配置,Python可以使用最新的,目前官网最新的版本是3.6.5。
使用的库
Python用于爬虫的库很多,也很杂,但是有两个库是必须要安装的,一个是requests,这个库的主要作用就是访问网页,获取网页源码,当然,它还有很多其他功能,可以访问下面的网址学习使用这个库
http://www.python-requests.org/en/master/
另外一个库是BeautifulSoap,这个库的主要作用就是解析网页源码,获取需要的信息,可以访问这个网址学习这个库
https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
有这两个库,基本90%以上的网页可以正常的爬取,一点问题没有
这两个库都可以在Pycharm中直接安装,使用pycharm安装第三方库的方法用百度一搜可以出现几百页的内容,真不知道为什么大家总是习惯重复写一件事,访问这个网址可以学习如何在pycharm下安装第三方库,非常简答,就三步
开干
准备工作接这么多,总结一下就是
安装python3.6.5
安装pycharm
安装库
写代码
具体的爬取实例从下节开始,今天实在不想写了,先去准备吧,大家玩的开心!!