专栏首页程序员的知识天地python爬虫入门:什么是爬虫,怎么玩爬虫?

python爬虫入门:什么是爬虫,怎么玩爬虫?

看到这两只爬虫没有?

两只爬虫

两只爬虫

跑得快

跑得快

一只没有..

不好意思

跑题了...

别误会,今天不是要教你怎么玩上面这两只沙雕玩意。

今天,我们正式从0到1

轻松学会 python 爬虫

接下来...

在你的浏览器里面

输入百度网址

https://www.baidu.com

一回车看到一个网页

大家都很熟悉吧!

然而

你右键,查看网页源代码。

是这个样子的

(源代码的1/100)

“窝里割草”

简简单单一个页面。

这么多密密麻麻的代码

不说了

劝退前端程序员!

还是学习 Python 吧。哈哈哈

那么说这个,和爬虫有什么关系呢?

你有没有想过

这些许许多多的网站

背后都是一些数据

如果我们可以用一个自动化的程序

轻轻松松就能把它们给爬取下来

是不是很爽?

比如,一些小电影的网站

我们只要用 Python

写几行代码

然后一运行

这个程序就帮我们爬取所有的小电影到我们本地

完全不需要我们费一点力气

再比如,你想了解一个行业的趋势

是不是可以把它们往年的数据都爬取下来

然后,对这些数据做一些分析呢?

等等..

这些,以后我们都会讲到!

我们刚刚提到的

一个自动化的程序

就是爬虫

知道了什么是爬虫之后

问题来了

爬虫怎么玩的?

那就偷偷告诉你

在互联网上许许多多的网站

它们都是托管在服务器上的

这些服务器 24 小时运行着

时时刻刻,兢兢业业的等待着别人的请求

所以

我们的爬虫,首先会模拟请求

就好像你在浏览器输入网址,然后回车那样

爬虫可以用到一些 Http 库向指定的服务器偷偷摸摸的发起请求,这个时候爬虫可以假装自己是浏览器(添加一些header信息)

大多数的服务器呢,傻不拉的以为是浏览器发送请求

就直接返回数据给爬虫了

当然了,有一些网站比较精明

所以他们会建立一些反爬虫机制

但是,对于我们来说,不在话下

这个是后话了!

反正这个时候呢,服务器把数据返回给我们了

那么我们就可以对这些数据进行猥琐操作了。

不同的情况下,服务器返回给我们的数据格式不一样

HTML

JSON

二进制的数据啦

根据不同的情况,我们可以使用不同的方式对他们进行处理。

处理完之后

我们就可以对他们进行保存啦

保存的方式也有几种

数据库

硬盘

等等..

以上就是我们的爬虫的具体爬取流程,这是我们开启爬虫体系的第一篇,接下来我们将一步一

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 月薪2万的爬虫工程师,Python需要学到什么程度?

    非计算机专业,正在自学python,很多教程里提到的网站的爬虫都会写了。比如拉勾网,豆瓣,实习僧,京东,淘宝,某妹子图等等……但是因为不是计算机专业的,也没学所...

    一墨编程学习
  • 听说你好不容易写了个爬虫,结果没抓几个就被封了?

    在这个数据驱动的时代,仿佛只要掌握了大数据,就对时代潮流和风向预测有了更令人信服的发言权。

    一墨编程学习
  • Python爬虫小白入门必读,成为大牛必须经历的三个阶段

    学习任何一门技术,都应该带着目标去学习,目标就像一座灯塔,指引你前进,很多人学着学着就学放弃了,很大部分原因是没有明确目标,所以,一定要明确学习目的,在你准备学...

    一墨编程学习
  • 反击爬虫,前端工程师的脑洞可以有多大?

    1. 前言 对于一张网页,我们往往希望它是结构良好,内容清晰的,这样搜索引擎才能准确地认知它。 而反过来,又有一些情景,我们不希望内容能被轻易获取,比方说电商网...

    IMWeb前端团队
  • 快速入门网络爬虫系列 Chapter01 | 初识网络爬虫

    我们为什么要了解网络爬虫? 因为当今从事科学研究等,需要大量的数据,但是这些数据公开的又非常的少,大量的数据都在大公司的手中。我们这些普通人本身并没有那么多数...

    不温卜火
  • 怎么用Python爬虫煎蛋妹纸海量图片?

    我们的目标是用爬虫来干一件略污事情。 最近听说煎蛋上有好多可爱的妹子,而且爬虫从妹子图抓起练手最好,毕竟动力大嘛。而且现在网络上的妹子很黄很暴力,一下接受太多容...

    FB客服
  • 常见的反爬虫技术有哪些?如何防止别人爬自己的网站?

    爬虫与反爬虫是互联网开发工程师之间的斗智斗勇。作为网站开发者既要掌握爬虫的技术,还要更进一步去了解如何实现反爬虫。

    用户2781897
  • Python爬虫之爬虫概述

    网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端(主要指浏览器)发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。

    海仔
  • 一步步编写自己的PHP爬取代理IP项目(一)

    第一章节主要给大家普及一下爬虫的概念以及相关的知识,让大家对后面的学习打下扎实的基础。如果你是有经验的开发者,完全可以跳过第一章进入第二章的学习了。

    NateHuang
  • 反击爬虫,前端工程师的脑洞可以有多大?

    对于一张网页,我们往往希望它是结构良好,内容清晰的,这样搜索引擎才能准确地认知它。 而反过来,又有一些情景,我们不希望内容能被轻易获取,比方说电商网站的交易额,...

    IMWeb前端团队

扫码关注云+社区

领取腾讯云代金券