首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python爬虫基础知识点1-知识体系梳理

每个人

都是一体两面

一个外我 一个内我

外我是外部行为的结果表征

内我是内心深入价值的映射

有的人

把初心扎根在内心深处

时刻指引自己前进的方向

有的人

初心被世俗遮上了一层尘土

迷失了方向 随波逐流

愿每个人

都怀揣着一颗初心

在自己的道路上不断前行

今天,从全局的视野剖析Python爬虫,分析爬虫可能涉及到的方方面面,了解爬虫可能涉及到的知识点!

Part1-Road Map

Part2-Analysis

I - Python环境:基于Python的爬虫,电脑中必须具有Python环境,否则系统无法运行。Python环境大致可分为两类,一类是Python官方软件,一类是第三方Python集成环境,例如Anaconda、Canopy、WinPython等,黄象探长仅用过Anaconda,大家选取一个适合自己的就可以。

II - 存储环境:我们抓取的数据可以到本地文件,例如txt、CSV、Excel等文件中,也可以存储到数据库中。当存储到数据库中时,需要系统中具有数据库环境,因此电脑中需要安装MySQL、Mongo等数据库,其中MySQL是存储结构化数据的,而Mongo是存储半结构化数据的。

III - 爬虫库:具体与爬虫有关的库可以分为请求库、解析库、存储库等,其中请求库是用来请求页面,获取页面源代码的Python库,有Python自带的urllib以及第三方的requests、selenium库;解析库是对获取到的源代码解析的Python库,从源代码中提取我们需要的信息,有Python自带的re库以及第三方的beautifulsoup、pyquery库;存储库是对提取的数据信息进行保存的Python库,把提取到的数据信息存储到本地文件、数据库中,方便我们随时使用,有pymysql、pymongo等库。

IV - 爬虫框架:以上内容完全可以帮助我们构建一个Python爬虫程序(通过直接编码的方式),但为了简化爬虫工作,使我们不被繁杂的代码所累,Python框架应运而生,它使我们仅关注爬虫的逻辑,简化了我们的工作,经常用到的爬虫框架有Scrapy、PySpider等。

V - 其他:同时我们爬虫过程中可能会遇到其他的问题,例如大量数据时分布式爬虫的搭建、反爬技术的破解等。

以上就是Python爬虫可能会涉及到的知识点,希望能帮助大家对爬虫有一个基本了解!

茫茫人海中 期待与你相遇 在你我最美丽的时刻

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180205G0WRG000?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券