爬虫学Python-学习笔记1

版权声明

本文首发于这个地儿

无需授权即可转载

最近因为工作需要,其实就是懒,想批量爬去element14网站上的元器件清单,就突击学习了一下爬虫,谁知道学习的过程中,发现爬虫这个事还真挺有意思,所以就把学习的心得在这里分享一下,这个分享可能是个持续的过程,也许会突然就结束,主要还是看我的时间安排,不过我会持续进行的,希望大家玩的开心。

爬虫原理

如果我上网看到喜欢的图片,我会怎么做?一般是打开网页,看到不错的图片,右键另存为,之后继续浏览,继续另存为,其实爬虫和这个过程一模一样,只不过通过程序来执行这些动作,速度会很快,极大的节省了时间,网上爬虫的教程也很多,写来写去其实就是这个事,只不过有些时候浏览网页这个事用程序来执行,会碰到很多限制,所以就有了很多的解决机制去突破这些限制,限制突破了之后,爬取的方法也就基本一致了

程序爬取网页资源,主要爬取的是网页源代码,然后通过解析源代码获得我们需要的数据,比如,我们浏览网页的时候看到的图片是这样的

程序浏览时看到的是这样的

我们需要做的就是通过程序分析这段网页源码,获取图片网址,访问图片网址,下载图片,存到指定的文件夹,这些就是爬虫-Spider。

程序语言

任何高级语言都可以去编写爬虫程序,目前使用最多的是Python,我也不知道为什么,也许是走的人多了,也就成了路,不管怎么说,学习爬虫用Python就对了,推荐使用的IDE是Pycharm,这也许是目前最好的集成开发环境,安装库极为方便,而且windows下的配置也非常简单,基本可以说没有配置,Python可以使用最新的,目前官网最新的版本是3.6.5。

使用的库

Python用于爬虫的库很多,也很杂,但是有两个库是必须要安装的,一个是requests,这个库的主要作用就是访问网页,获取网页源码,当然,它还有很多其他功能,可以访问下面的网址学习使用这个库

http://www.python-requests.org/en/master/

另外一个库是BeautifulSoap,这个库的主要作用就是解析网页源码,获取需要的信息,可以访问这个网址学习这个库

https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

有这两个库,基本90%以上的网页可以正常的爬取,一点问题没有

这两个库都可以在Pycharm中直接安装,使用pycharm安装第三方库的方法用百度一搜可以出现几百页的内容,真不知道为什么大家总是习惯重复写一件事,访问这个网址可以学习如何在pycharm下安装第三方库,非常简答,就三步

开干

准备工作接这么多,总结一下就是

安装python3.6.5

安装pycharm

安装库

写代码

具体的爬取实例从下节开始,今天实在不想写了,先去准备吧,大家玩的开心!!

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20180520G1AYUI00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券