前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >爬虫入门到精通-开始爬虫之旅

爬虫入门到精通-开始爬虫之旅

作者头像
爬虫
发布2018-04-08 11:55:12
6660
发布2018-04-08 11:55:12
举报
文章被收录于专栏:Python与爬虫Python与爬虫

本文章属于爬虫入门到精通系统教程第一讲

什么是爬虫?

引用自维基百科

网络蜘蛛(Web spider)也叫网络爬虫(Web crawler),蚂蚁(ant),自动检索工具(automatic indexer),或者(在FOAF软件概念中)网络疾走(WEB scutter),是一种“自动化浏览网络”的程序,或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息。

我的理解就是可以自动的抓取数据

爬虫能做什么?

  • 可以创建搜索引擎(Google,百度)
  • 可以用来抢火车票
  • 带逛
  • 简单来讲只要浏览器能打开的,都可以用爬虫实现

可以参考以下链接,还有很多好玩的~

利用爬虫技术能做到哪些很酷很有趣很有用的事情?

https://www.zhihu.com/question/27621722

爬虫的本质是什么?

简单来讲就是模仿浏览器来打开网页

那我们应该如何模仿浏览器呢?

我们首先应该要知道"浏览器是怎么打开网页?"

一旦我们知道浏览器是怎么打开网页的,那么我们可以通过同样的手段来模拟浏览器

大家有兴趣的话可以看看如下文章

在浏览器地址栏输入一个URL后回车,背后会进行哪些技术步骤?

https://www.zhihu.com/question/34873227

从输入 URL 到页面加载完成的过程中都发生了什么事情?

http://fex.baidu.com/blog/2014/05/what-happen/

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-03-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python爬虫分享 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 爬虫能做什么?
  • 爬虫的本质是什么?
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档