爬虫篇 | 不会这几个库,都不敢说我会Python爬虫

最近整理一个爬虫系列方面的文章,不管大家的基础如何,我从头开始整一个爬虫系列方面的文章,让大家循序渐进的学习爬虫,小白也没有学习障碍.

爬虫篇 | Python现学现用xpath爬取豆瓣音乐

爬虫篇| Python最重要与重用的库Request

爬虫篇 | Python爬虫学前普及

基础篇 | Python基础部分

很多朋友不知道Python爬虫怎么入门,怎么学习,到底要学习哪些内容。今天我来给大家说说学习爬虫,我们必须掌握的一些第三方库。

废话不多说,直接上干货。

1

请求库

1. requests

GitHub:https://github.com/psf/requests

requests库应该是现在做爬虫最火最实用的库了,非常的人性化。有关于它的使用我之前也写过一篇文章 一起看看Python之Requests库 ,大家可以去看一下。

有关于requests最详细的使用方法,大家可以参考官方文档:https://requests.readthedocs.io/en/master/

使用小案例:

>>> import requests
>>> r = requests.get('https://api.github.com/user', auth=('user', 'pass'))
>>> r.status_code
200
>>> r.headers['content-type']
'application/json; charset=utf8'
>>> r.encoding
'utf-8'
>>> r.text
u'{"type":"User"...'
>>> r.json()
{u'disk_usage': 368627, u'private_gists': 484, ...}

2. urllib3

GitHub:https://github.com/urllib3/urllib3

urllib3是一个非常强大的http请求库,提供一系列的操作URL的功能。

有关于它的详细使用方法可以参考:https://urllib3.readthedocs.io/en/latest/

使用小案例:

>>> import urllib3
>>> http = urllib3.PoolManager()
>>> r = http.request('GET', 'http://httpbin.org/robots.txt')
>>> r.status
200
>>> r.data
'User-agent: *\nDisallow: /deny\n'

3.selenium

GitHub:https://github.com/SeleniumHQ/selenium

自动化测试工具。一个调用浏览器的 driver,通过这个库你可以直接调用浏览器完成某些操作,比如输入验证码。

对于这个库并非只是Python才能用,像JAVA、Python、C#等都能够使用selenium这个库

有关于Python语言如何去使用这个库,大家可以去访问https://seleniumhq.github.io/selenium/docs/api/py/ 查看官方文档

使用小案例:

from selenium import webdriver

browser = webdriver.Firefox()
browser.get('http://seleniumhq.org/')

4.aiohttp

GitHub:https://github.com/aio-libs/aiohttp

基于 asyncio 实现的 HTTP 框架。异步操作借助于 async/await 关键字,使用异步库进行数据抓取,可以大大提高效率。

这个属于进阶爬虫时候必须掌握的异步库。有关于aiohttp的详细操作,可以去官方文档:https://aiohttp.readthedocs.io/en/stable/

使用小案例:

import aiohttp
import asyncio

async def fetch(session, url):
    async with session.get(url) as response:
        return await response.text()

async def main():
    async with aiohttp.ClientSession() as session:
        html = await fetch(session, 'http://python.org')
        print(html)

if __name__ == '__main__':
    loop = asyncio.get_event_loop()
    loop.run_until_complete(main())

2

解析库

1、beautifulsoup

官方文档:https://www.crummy.com/software/BeautifulSoup/

html 和 XML 的解析,从网页中提取信息,同时拥有强大的API和多样解析方式。一个我经常使用的解析库,对于html的解析是非常的好用。对于写爬虫的人来说这也是必须掌握的库。

2、lxml

GitHub:https://github.com/lxml/lxml

支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。

3、pyquery

GitHub:https://github.com/gawel/pyquery

jQuery 的 Python 实现,能够以 jQuery 的语法来操作解析 HTML 文档,易用性和解析速度都很好。

3

数据存储库

1、pymysql

GitHub:https://github.com/PyMySQL/PyMySQL

官方文档:https://pymysql.readthedocs.io/en/latest/

一个纯 Python 实现的 MySQL 客户端操作库。非常的实用、非常的简单。

2、pymongo

GitHub:https://github.com/mongodb/mongo-python-driver

官方文档:https://api.mongodb.com/python/

顾名思义,一个用于直接连接 mongodb 数据库进行查询操作的库。

3、redisdump

使用方法:https://blog.csdn.net/zhwitbird/article/details/81279406

redis-dump是将redis和json互转的工具;redis-dump是基于ruby开发,需要ruby环境,而且新版本的redis-dump要求2.2.2以上的ruby版本,centos中yum只能安装2.0版本的ruby。需要先安装ruby的管理工具rvm安装高版本的ruby;

本文分享自微信公众号 - Python绿色通道(Python_channel)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-10-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏.Net Core技术分享

开源日志框架Exceptionless使用教程

Exceptionless是一款日志记录框架,它开源、免费、提供管理界面、易于安装和使用。ExceptionLess底层采用ElasticSearch作为日志存...

8840
来自专栏.Net Core技术分享

CQRS+ES项目解析-Equinox

今天我们来分析另一个开源的CQRS+ES项目:Equinox。该项目可以在github上下载并直接本地运行,项目地址:https://github.com/Ed...

12250
来自专栏微信公众号【Java技术江湖】

SVN与Git比较的优缺点差异

1. Subversion属于集中式的版本控制系统 集中式的版本控制系统都有一个单一的集中管理的服务器,保存所有文件的修订版本,而协同工作的人们都通过客户端连到...

33330
来自专栏Java技术栈

大牛总结的 Git 使用技巧,写得太好了!

本文是参考廖雪峰老师的Git资料再加上我自己对Git的理解,记录我的Git学习历程,作下此文是为以后学习,工作,开发中如果遇到问题可以回过头来参考参考。因为水平...

15750
来自专栏Python空间

寓教于乐,用玩游戏的方式学习 Git!

从刚接触电脑时的打字练习软件 金山打字通,到程序猿写代码的利器 Vim 都有小游戏(金山打字通游戏、VIM Adventures)来帮助我们入门。

8330
来自专栏机器学习与统计学

如何轻松阅读 GitHub 上的项目源码 ?

作者:牛岱 link:https://www.zhihu.com/question/27821340/answer/808399749

24560
来自专栏Java知己

2019 年 GitHub 上最热门的 Java 开源项目

https://github.com/Snailclimb/JavaGuide Star 22668

20840
来自专栏前端技术开发

使用vue3.0和element实现后台管理模板

通过自己所学的这段时间,利用空余时间,使用vue3.0脚手架搭建的一个关于后台的管理模板,所实现功能也是模仿一个后台的界面,数据分为两种存放,一种是直接存储到m...

32120
来自专栏二狗的DBA之路

prometheus使用钉钉告警

prometheus自带的邮件告警,有可能被淹没在日常邮件中。 因此建议再配一个webhook类的告警通道。 

17720
来自专栏Android 技术栈

一款Android WebView进度条显示控件,使其加载进度平滑过渡。

此类是从项目Justson/AgentWeb-WebIndicator中将处理WebView进度条剥离出来的,在此基础上进行优化后合并为一个类,便于导入到自己的...

19030

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励