前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >爬虫笔记1:Python爬虫常用库

爬虫笔记1:Python爬虫常用库

作者头像
py3study
发布2020-01-07 10:13:25
1.9K0
发布2020-01-07 10:13:25
举报
文章被收录于专栏:python3python3

请求库: 1、urllib:urllib库是Python3自带的库(Python2有urllib和urllib2,到了Python3统一为urllib),这个库是爬虫里最简单的库。 2、requests:requests属于第三方库,使用起来比urllib要简单不少,且功能更加强大,是最常用的请求库。 3、Selenium:Selenium属于第三方库,它是一个自动化测试工具,可以利用它自动完成浏览器的操作,如点击,下拉,拖拽等等,通常完成ajax复杂的操作。


解析库: 1、lxml:属于第三方库,支持HTML和xml的解析,支持XPath的解析方式,解析效率非常高。 2、Beautiful Soup:属于第三方库,API强大,使用也方便。 3、pyquery:属于第三方库,功能强大在于css选择器上,对jQuery比较了解的话使用pyquery将会十分方便,因此我也比较推荐使用pyquery。


存储库: 1、PyMySQL:MySQL作为最常用的数据库之一,PyMySQL也是爬虫后存储数据的非常好的选择,它可以实现对数据库的创建表,增删查改等操作。 2、PyMongo:PyMongo是和MongoDB进行交互的库。 3、redis-py:redis-py是和Redis进行交互的库。


图像识别库: 1、tesserocr:tesserocr是Python使用OCR技术来识别图像,本质是对tesseract做一层API的封装,所以在安装tesserocr之前必须先安装tesseract。


爬虫框架 1、pyspider:pyspider 是由国人 binux 编写的强大的网络爬虫系统,它带有强大的 WebUI、脚本编辑器、任务监控器、项目管理以及结果处理器,它支持多种数据库后端、多种消息队列、JavaScript 渲染页面的爬取。依赖库有PhantomJS。 2、Scrapy:功能极其强大,依赖库较多。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019-09-17 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云数据库 SQL Server
腾讯云数据库 SQL Server (TencentDB for SQL Server)是业界最常用的商用数据库之一,对基于 Windows 架构的应用程序具有完美的支持。TencentDB for SQL Server 拥有微软正版授权,可持续为用户提供最新的功能,避免未授权使用软件的风险。具有即开即用、稳定可靠、安全运行、弹性扩缩等特点。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档