6大爬虫利器,轻松搞定爬虫

工欲善其事必先利其器,Python之所以流行在于它有非常丰富的第三方包,无论是Web框架还是机器学习框架、抑或是爬虫框架,多得让人眼花缭乱,这给了开发者极大的选择性,这是其它语言没法企及的。今天小编就来推荐6个牛逼的爬虫利器,助你轻松搞定爬虫。

1、Requests

Requests是一个HTTP请求库,完美体现了Python简单、优雅、易勇的编程哲学,开发者经常拿它的源代码作为参考,是不可多得的源代码学习资料。官网地址:

http://docs.python-requests.org/en/master/

2、BeautifulSoup

如果说 Requests 是最好的 HTTP 请求库,那么 BeautifulSoup 就是最好的 HTML 解析库,HTML 文档返回之后需要解析,我们可以用 BeautifulSoup 解析,它的API对程序员来说非常友好、用起来简单,API非常人性化,支持css选择器,有人说它的速度慢,在数据量并不是特别的情况下,其实没人care,人力成本可以机器成本高多了。官方地址:

https://www.crummy.com/software/BeautifulSoup/bs4/doc/

3、Fiddler

Fiddler 本质上不是爬数据的,而是一个爬虫辅助工具,在分析爬虫的请求时,有时候仅仅依靠浏览器来跟踪请求力量太显单薄了,特别是针对移动设备的爬虫束手无策,Fiddler 简直就是移动设备上爬虫的克星,手机上如何HTTP请求都可以被Fiddler监控,有了它,再也不要担心爬不到手机上的数据了。官网:

https://www.telerik.com/fiddler

4、Selenium

当你无法通过Requests获取数据时,换一种方案用Selenium,Selenium 是什么?本身是自动化测试工具。如果你在浏览器里面安装一个 Selenium 的插件,那么便可以方便地实现Web界面的测试,当然也可以用于爬虫。比如自动打开百度:

5、Tesseract

Tesseract 是一个文字识别工具,在一些复杂的爬虫情景下,服务器的反爬虫需要用户输入验证码才能进行下一步操作,而 Tesseract 可以自动识别出验证码,如果你懂一点机器学习算法,自己训练一套数据,就算12306这样的验证码也不是什么难事。GtiHub地址:

https://github.com/tesseract-ocr/tesseract

6、Scrapy

写爬虫用Requests只能是搞搞小项目,适合刚入门的小白学习或者是简单的业务场景,如果是做大规模爬虫,Scrapy 的效率、性能都是工业级别的,你无需自己造轮子。分布式爬虫就用Scrapy。

(完)

【Python那些事】想对你说:

今天是2017年的最后一天,感谢大家一如既往的支持,你们的支持是我努力坚持的动力。在这一年里,有人赞赏,有人质疑,但幸运的是,我努力坚持下来了。感谢你们,感谢你们的支持!

再见,2017,与往事干杯。你好,2018,继续风雨兼程!

大家有什么新年梦想呢?有什么新的Python学习计划呢?可以在留言区写下自己的新年梦想或者学习计划,没准就能顺利实现了呢!

看完本文有收获?请转发分享给更多人

关注「Python那些事」,做全栈开发工程师

本文来自企鹅号 - Python那些事媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏BestSDK

从初创到BAT,都必须遵守的4个用户体验设计细节

启动页 当用户打开 app 时,最不能做的事情就是让他们等待。但是如果 app 的初始设置非常耗时,又不可能优化该怎么办?你不得不让用户等。如果他们愿意等,你得...

31540
来自专栏FreeBuf

2017年最佳iPhone渗透APP及工具

与Android不同,搜索和查找iPhone的黑客工具及应用是一项艰巨的任务。这与ios系统及其强大的安全性不无关系。由于许多黑客工具,必须要以‘root’的权...

56540
来自专栏FreeBuf

Apple iOS 9.3 S/Plus – 触摸密码绕过漏洞

? 介绍 iOS是苹果公司开发的手机操作系统,发布于2007年,使用在iPhone 和 iPod Touch上,并且已经开始延伸至其他苹果设备如iPad和A...

22050
来自专栏更流畅、简洁的软件开发方式

我写项目的思路和“自然架构”

我写项目的思路     三层的思路是要把页面(UI、数据显示)、业务逻辑、数据处理(也叫持久化)分离开来处理,思路自然是好的,但是一到了实际应用中,好多人...

22490
来自专栏企鹅号快讯

盘点 2017年Python 领域值得关注的 5 个库、工具和开发者

今年 Python 增长迅猛,也有了不少新东西,在这里推荐 5 个值得在 2018 年继续关注的库、工具和开发者,看看有没有你没听过的? 值得关注的 5 个 P...

23980
来自专栏WeTest质量开放平台团队的专栏

告别被拒,提升IOS审查通过率(四)

主要是提审资源相关检查项的分享,在过往提审数据统计中,因提审资源被拒的比例高达12%,此类问题主要集中在应用截图、预览视频、提审帐号、安装包和第三方许可证书。...

15110
来自专栏Android 开发者

Android 8.0 Oreo 国内可用测试平台上线

23720
来自专栏大数据挖掘DT机器学习

用 Python 来刷微信「跳一跳」游戏的记录

本文代码在公众号 datadw 里 回复 跳一跳 即可获取。 微信小程序的游戏 —— 跳一跳,可以说是火爆了所有的微信好友圈。甚至比五六年前的飞机大战游戏都...

44670
来自专栏IMWeb前端团队

RAIL简介:一个以用户为中心的性能模型

本文作者:IMWeb huscot 原文出处:IMWeb社区 未经同意,禁止转载 web性能优化,这是大家耳熟能详的东西了。 一说到性能优化,大家可能...

26870
来自专栏曾大稳的博客

ffmpeg视频播放器相关

和播放音频一样,采用生产者消费者模型。AvPacket入队,然后AvPacket出队伍解码。

14620

扫码关注云+社区

领取腾讯云代金券