首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python爬虫日记第二天之磨刀不误砍柴工

Python爬虫日记第二天之磨刀不误砍柴工

磨刀不误爬虫工,往往一个环境的好坏会影响到你的开发效率以及开发体验,所以小编在此给大家介绍几个写Python爬虫经常用到的工具

首先不得不说的是,Python2.7 以及 Python3.6 这两个版本的Python安装包;对于该学Python2还是Python3这个问题,我个人的建议是可以直接上手Python3,因为Python3的话是Python未来的方向,而且我在实际应用中遇到的Python2跟3需要注意的不同之点除了print方式不同,以及一些包的导入问题和语法问题,其他屈指可数,完全可以上手

接下来开始步入正题:

D

Python的集成开发环境--PyCharm

PyCharm是一种Python IDE,带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。此外,该IDE提供了一些高级功能,以用于支持Django框架下的专业Web开发

小编我用起来也是得心应手,但是对于刚会一点Python基础的萌新,还是建议可以先用Notepad,这类简单编辑器写代码,能够帮你熟练Python语法,不会变成没了IDE就不会写代码的新手了

我也是刚开始用了很久的Notepad,之后才是用上了PyCharm,一股鸟枪换炮的气势油然而生,相信我,这感觉错不了!

这里提醒各位同学,如果有校园邮箱或者可以申请的话,可以免费使用PyCharm专业版哦;后期也会出一篇有关安装以及pycharm基本模块的文章

D

数据库:关系型数据库MySQL,非关系型数据库MongoDB

一个爬虫获取到的数据,可以直接以文本,音频,视频,csv等形式保存在本地,当然更多的会考虑保存在数据库中;小编我一开始用的是mongodb,后来才开始使用MySQL,

mysql的重要性自不必多说,前几天还遇到一个问题,在爬虫在爬取百万信息的时候,越来越慢,结果纠结了我半天,发现mysql没有加索引!真蠢......如果说没加索引之前是蜗牛,那加了索引之后就TM是火箭!

在小编分享的Python的开发环境资源中,包含了MySQLl以及MongoDB的安装包,还有二者的可视化工具

D

模拟请求工具:Postman

在爬取网站的时候,有的网站会做些反爬措施,比如需要你的User-Agent,或者需要cookie才能访问,面对简单的小网站还好,而面对反爬措施十足的网站时,你再通过这样直接的多次发起请求而去分析得到的响应时,小心有些网站还会把你IP封了,这时候你就需要一款贴心的Postman了

对就是这个脑袋朝斜上方45度的货

通过postman你可以模拟向浏览器发送请求,这样一来你可以就可以判断,得到这个网站响应的条件是什么了,是user-agent,还是cookie,又具体是繁长的cookie中的哪一个值,又或者需要添加哪些data

D

抓包工具:Fiddler

在爬取网站时,有很多的网页内容是动态加载的,也就是说你在页面源代码中是看不到这些内容的;又或者你需要爬取APP上的信息,这个时候你可能需要fiddler了,通过抓包,你可以找到所有网络请求中你需要的请求,进而对此分析,再由这个链接去获得对应的内容

基本的环境工具就介绍到这里,想熟练运用这些工具还需要大家多多使用哦,遇到问题,第一Google,第二百度,第三可以找小编 ~ 若有错误,欢迎指正

觉得不错,欢迎点赞,把我们举高高,咳咳

说人话!

能置顶是极好的~

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181028G004O800?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券