pip安装第三方库

python能够这么流行,一个重要的原因是第三方库非常的多,提供的功能非常的丰富,减少了开发时间,github等有非常多python的第三方库,很多第三库不仅提供了很多实用的功能,同时也是学习python的好材料。

这一章介绍两个常用的第三库,requests和bs4,这两个库在做爬虫是最经常会用到的,requests为抓取网络数据,bs4为对抓取的html结构进行解析。

第三方库的安装

python为我们提供了安装第三方库的工具,如easy_install,pip等,在windows下,存放在目录C:\Python27\Scripts,需要使用这些工具进行安装的时候,需要把这个目录路径放在系统路径下,否则会出现找不到命令,easy_install,pip的原理是通过参数去下载相应的库,并把它安装到相应的目录下,在windows,一边存放在C:\Python27\Lib\site-packages。

安装requests和bs4

安装完以后,查看是否安装成功,只要把库加载进来看是否成功。

如果出现:

ImportError: No module named requests

说明没有安装成功,看看安装过程中出现了什么样的问题,进行修复。

库的使用

在网络处理中requests和bs4是最重要的两个库,requests库是对python中网络标准模块的封装,主要是用来获取网页的数据,抓取完数据以后还要对数据进行处理,取出我们自己需要的属性和数据,bs4就是用来解析html的好工具,这两个库都非常的重要,里面的东西非常的多,以后会专门的进行介绍,这里主要是简单的介绍如何方便的使用它们。

利用requests抓取百度网站,并使用bs4解析网站的title。

为了更好的模拟浏览器访问网站,在程序进行访问网站时,加入了头信息,User-Agent,Accept,Accept-Encoding等头信息。获取到网站的数据以后,通过BeautifulSoup进行html数据的处理,这里我们只是简单的得出网站的title信息。

总结

在python中有非常的第三方库,大部分的库都非常的成熟,使用的人也非常的多,安装到自己的环境中也非常的方便,而且这些库基本都是开源的,非常适合初学者,多去阅读别人的源代码是编程初学者进步必经之路。

转载请标明来之:http://www.bugingcode.com//

更多教程:阿猫学编程

更多课程和文章尽在微信号:

「datartisan数据工匠」

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180426B09EIY00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券