Python爬虫学前普及

预计阅读时间: 3分钟

不知道大家有没有和我一样的想法,最开始学习Python的兴趣就是为了爬虫,爬一些好看的妹子图片…

恩,准备进入正题了!最近一段时间没有怎么更新公众号,主要就是在做爬虫教程的一些准备工作,看看爬虫需要用到那些技术,然后做个计划出来,确定一下学习课程中缝,这不今天就先列出一些玩爬虫需要的准备工作!

Python爬虫这门技术你可以做得很简单,你也可以玩得很深入.打比方用简单的爬虫方式爬取1000万条数据可能需要一周时间,但如果你的爬虫玩得比较厉害,你可以采用分布式爬虫技术1天就能完成了1000万条数据。虽然都是爬虫,但这就是菜鸟与大牛的区别!这就和太极拳似的,易学难精!

这里面的技术点挺多的!现在来简单聊聊爬虫需要涉及的知识点。

网页知识

html,js,css,xpath这些知识,虽然简单,但一定需要了解。 你得知道这些网页是如何构成的,然后才能去分解他们.

HTTP知识

  • 一般爬虫你需要模拟浏览器的操作,才能去获取网页的信息
  • 如果有些网站需要登录,才能获取更多的资料,你得去登录,你得把登录的账号密码进行提交
  • 有些网站登录后需要保存cookie信息才能继续获取更多资料

正则表达式

有了正则表达式才能更好的分割网页信息,获取我们想要的数据,所以正则表达式也是需要了解的.

一些重要的爬虫库

  • url,url2
  • beautiul Soup

数据库

爬取到的数据我们得有个地方来保存,可以使用文件,也可以使用数据库,这里我会使用mysql,还有更适合爬虫的MongoDB数据库,以及分布式要用到的redis 数据库

爬虫框架

PySpiderScrapy 这两个爬虫框架是非常NB的,简单的爬虫可以使用urlliburllib2以及正则表达式就能完成,但高级的爬虫还得用这两个框架。 这两个框架需要另行安装。后面一起学习.

反爬虫

有时候你的网站数据想禁止别人爬取,可以做一些反爬虫处理操作。 打比方百度上就无法去查找淘宝上的数据,这样就避开了搜索引擎的竞争,淘宝就可以搞自己的一套竞价排名

分布式爬虫

使用多个redis实例来缓存各台主机上爬取的数据。

爬虫要学的东西还是挺多的,想把爬虫玩得666,基本就是这些知识点吧!好了,上面的东西我也只是粗略整理,笔误在所难免,后面我们会一起来学习爬虫知识吧!而我也准备做这样一套完整的爬虫系列教程!

最后我们一起来一场愉快的爬虫之旅吧!

原文发布于微信公众号 - Python绿色通道(Future_coder)

原文发表时间:2018-01-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云计算-私有云

Windows Server 2019前瞻

十一假期马上就过完了,不知道各位小伙伴玩的怎么样啊,是否有遇到“人在囧途”或者是否看到了处处大海。微软于2018年9月24日-28日在美国召开了Ignite 2...

1.4K0
来自专栏Java后端技术栈

分布式之消息队列复习精讲!

小A,工作于传统软件行业(某社保局的软件外包公司),每天工作内容就是和产品聊聊需求,改改业务逻辑。再不然就是和运营聊聊天,写几个SQL,生成下报表。又或者接到客...

753
来自专栏技术小黑屋

Google Play商店推广那些事

Play商店是Android的官方商店,虽然在大陆无法访问,但是这里依旧是重要的版本发布市场,尤其是对于那些国际化的产品。对于拓宽海外市场,付费推广就是一部分不...

7213
来自专栏腾讯Bugly的专栏

《手Q Android线程死锁监控与自动化分析实践》

一、问题背景 手Q每个版本上线以后研发同学都会收到各种问题反馈。在跟进手Q内部用户反馈的问题时,发现多例问题,其表象和原因如下: 1、问题表象:“未读不消失”、...

4559
来自专栏WeTest质量开放平台团队的专栏

http性能测试点滴

在服务上线之前,性能测试必不可少。本文主要介绍性能测试的流程,需要关注的指标,性能测试工具apache bench的使用,以及常见的坑。

1803
来自专栏SAP最佳业务实践

SAP最佳业务实践:ETO–报价处理(232)-12组件和活动更新

image.png CJ20N组件和活动更新 由于客户修改订购的最终产品数量,项目必须根据这一新的信息进行更改。注意的是,项目的组件和作业的期间也需要进行相应的...

3325
来自专栏刘望舒

知乎 Android 客户端组件化实践

知乎 Android 客户端最早使用的是最常见的单工程 MVC 架构,所有业务逻辑都放在了主工程 Module 里,网络层和一些公共代码分别被抽成了一个 Mod...

4194
来自专栏更流畅、简洁的软件开发方式

【自然框架】添加数据的思路和流程 —— 流水线式

  自然框架里面,添加数据的思路、流程:   1、 根据元数据绘制表单。   2、 用户看到表单后就可以录入数据了。   3、 在前台使用正则来做验证。   4...

2365
来自专栏Python中文社区

开源项目Trip: 给Requests加上协程

專 欄 ❈LittleCoder,维护微信个人号python接口:http://itchat.readthedocs.io狂热bbt粉丝,业余写玩具。 Git...

2328
来自专栏lonelydawn的前端猿区

大白话谈 Git

一、Git是什么? 定义 Git 的定义 是 一款免费、开源的版本控制系统。 免费不必多说;开源则是指将源代码公布,并允许公众查看、修改代码。 如果我们将项目每...

3136

扫码关注云+社区

领取腾讯云代金券