首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

爬虫笔记1:Python爬虫常用

请求: 1、urllib:urllib是Python3自带的(Python2有urllib和urllib2,到了Python3统一为urllib),这个爬虫里最简单的。...---- 解析: 1、lxml:属于第三方,支持HTML和xml的解析,支持XPath的解析方式,解析效率非常高。 2、Beautiful Soup:属于第三方,API强大,使用也方便。...---- 存储: 1、PyMySQL:MySQL作为最常用的数据之一,PyMySQL也是爬虫后存储数据的非常好的选择,它可以实现对数据的创建表,增删查改等操作。...---- 爬虫框架 1、pyspider:pyspider 是由国人 binux 编写的强大的网络爬虫系统,它带有强大的 WebUI、脚本编辑器、任务监控器、项目管理以及结果处理器,它支持多种数据后端...依赖有PhantomJS。 2、Scrapy:功能极其强大,依赖较多。

2K20
您找到你想要的搜索结果了吗?
是的
没有找到

python爬虫常用

python爬虫常用 请求: 1. requests 这个爬虫最常用的一个 2....如果程序可以在等待的过程中做一些其他的事情,如进行请求的调度,响应的处理等,那么爬虫的效率就会比之前的那种方式有很大的提升。 而aiohttp就是这样一个提供异步web服务的。...解析: 1.lxml lxml是python的一个解析,这个支持HTML和xml的解析,支持XPath的解析方式,而且效率也是非常高的,深受广大程序员的热爱 2.Beautiful Soup Beautiful...3.pyquery 同样是一个强大的网页解析工具,它提供了和 jQuery 类似的语法来解析HTML 文梢, 数据: 1.mysql 数据 2.MongoDB:是由 ++语言编写的非关系型数据,...是一个基于分布式文件存储的开源数据系统内容存储形式类似 JSON 对象,它的字段值可以包含其他文档、数组及文档数组,非常灵活 3.Redis 是一个基于 存的高效的非关系型数据, 存储: 1.PyMySOL

86710

爬虫之requests

目录 requests 部分源码 发送GET请求 response.text和response.content的区别: 发送POST请求 requests使用代理 Cookie Cookie模拟登录...Session:共享cookie 处理不信任的SSL证书: requests 虽然Python的标准中 urllib模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好...其他HTTP请求方法查看request.api,常用的方法用法如下: 发送GET请求 URL 的查询字符串(query string)传递某种数据,我们可以通过params参数来传递,requests不需要...:这个是直接从网络上抓取的数据,没有经过任何的编码,所以是一个bytes类型,其实在硬盘上和网络上传输的字符串都是bytes类型 response.text:这个是str的数据类型,是requests将...requests.get(url,headers=headers) print(resp.text) Session:共享cookie 使用requests,也要达到共享cookie的目的,那么可以使用requests给我们提供的

40710

爬虫爬虫简介与request请求

目录 一、爬虫介绍 1.1什么是爬虫 1.2 爬取流程 二、请求与响应 2.1request 2.2response 三、小结 四、爬虫协议 五、requests请求 5.1get请求 5.2post...请求 5.3Response响应 5.4高级用法 一、爬虫介绍 1.1什么是爬虫 #1、什么是互联网?...``` #3.2 而爬虫程序要做的就是: 模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据或文件中   #3.1与3.2的区别在于: ​``` 我们的爬虫程序只提取网页代码中对我们有用的数据...#4、保存数据 数据 文件 二、请求与响应 ?...: 爬取--->解析--->存储 #2、爬虫所需工具: 请求:requests,selenium 解析:正则,beautifulsoup,pyquery 存储:文件

1.1K30

爬虫必备,案例对比 Requests、Selenium、Scrapy 爬虫

经常有读者会爬虫学哪个?...其实常用的 Python 爬虫无非是requests,selenium和scrapy,且每个都有他们的特点,对于我来说没有最推荐的只有最合适,本文就将基于一个简单的爬虫案例(Python爬取起点中文网...)来对比分析(从时间角度)三个 目标需求为批量采集排行榜书籍信息,如下图所示: 页面结构很容易分析出来,排行榜100条书籍信息,一个静态页面包含20条数据。...selenium就派上用场了,不用分析网站反爬方式,直接模拟用户请求数据(大多数情况下,也有针对selenium的反爬手段) 5.2 selenium实现 如上文所说,如果是用 requests 或者 scrapy爬虫发现有反爬措施...所以根据本文的案例分析,如果有爬虫需求时,将方法定格在某一个方法并非是一个很好的选择,大多情况下我们需要根据对应网站/app的特点以及具体需求,来综合判断,挑选出最合适的爬虫

68120

爬虫篇| 爬虫中的urllib使用(三)

我们首先了解一下 Urllib ,它是 Python 内置的 HTTP 请求,也就是说我们不需要额外安装即可使用,它包含四个模块: request:它是最基本的HTTP请求模块,可以用来模拟发送请求...只需要给方法传入URL以及额外的参数,就可以模拟实现请求过程了。 error:异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后进行修正。...运行爬虫的时候,经常会出现被封IP的情况,这时我们就需要使用ip代理来处理,urllib的IP代理的设置如下 ?...在开发爬虫过程中,对cookie的处理非常重要,urllib的cookie的处理如下 ?...create_unverified_context() # 添加到context参数里 response = urllib.request.urlopen(request, context = context) 总结 对于urllib

83740

Python爬虫解析安装

本节中,我们就来介绍一下这些的安装过程。 lxml 的安装 lxml 是 Python 的一个解析,支持 HTML 和 XML 的解析,支持 XPath 解析方式,而且解析效率非常高。...lxml 是一个非常重要的,后面的 Beautiful Soup、Scrapy 框架都需要用到此,所以请一定安装成功。 5....这是因为这个包源代码本身的文件夹名称就是 bs4,所以安装完成之后,这个文件夹就被移入到本机 Python3 的 lib 库里,所以识别到的文件名就叫作 bs4。...tesserocr 的安装 在爬虫过程中,难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们可以直接用 OCR 来识别。 1....例如,对于上图所示的验证码,我们可以使用 OCR 技术来将其转化为电子文本,然后爬虫将识别结果提交给服务器,便可以达到自动识别验证码的过程。

21410

Python爬虫(三):BeautifulSoup

BeautifulSoup 是一个可以从 HTML 或 XML 文件中提取数据的 Python ,它能够将 HTML 或 XML 转化为可定位的树形结构,并提供了导航、查找、修改功能,它会自动将输入文档转换为...BeautifulSoup 支持 Python 标准中的 HTML 解析器和一些第三方的解析器,默认使用 Python 标准中的 HTML 解析器,默认解析器效率相对比较低,如果需要解析的数据量比较大或比较频繁...看一下主要解析器和它们的优缺点: 解析器 使用方法 优势 劣势 Python标准 BeautifulSoup(markup,"html.parser") Python的内置标准;执行速度适中;文档容错能力强...需要安装C语言。...需要安装C语言 html5lib BeautifulSoup(markup,"html5lib") 最好的容错性;以浏览器的方式解析文档;生成HTML5格式的文档。 速度慢;不依赖外部扩展。

1.5K20

Python爬虫Xpath详解

前言 前面,我们实现了一个最基本的爬虫,但提取页面信息时使用的是正则表达式,这还是比较烦琐,而且万一有地方写错了,可能导致匹配失败,所以使用正则表达式提取页面信息多多少少还是有些不方便。...不用担心,这种解析已经非常多,其中比较强大的有 lxml、Beautiful Soup、pyquery 等,本章就来介绍这 3 个解析的用法。...所以在做爬虫时,我们完全可以使用 XPath 来做相应的信息抽取。本节中,我们就来介绍 XPath 的基本用法。 1....后面会通过 Python 的 lxml ,利用 XPath 进行 HTML 的解析。 3. 准备工作 使用之前,首先要确保安装好 lxml ,若没有安装,可以参考第 1 章的安装过程。 4....''' html = etree.HTML(text) result = etree.tostring(html) print(result.decode('utf-8')) 这里首先导入 lxml

21210
领券