专栏首页python编程军火库第一篇 爬虫技术入门了解篇

第一篇 爬虫技术入门了解篇

各位小伙伴大家好,从今天起我们就正式开始爬虫技术的讨论,本期我们主要说明以下几个问题:

1.什么是爬虫

爬虫,即网络爬虫,大家可以理解为在网络上爬行的一只蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它,通过特定的逻辑获取你想要的资源。

比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。这样,就可以爬取到你想要获取的东西了

2.浏览网页的过程

用户浏览网页的过程中,我们可能会看到许多好看的图片,比如我们会看到几张的图片以及百度搜索框,这个过程其实就是用户输入网址之后,经过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器经过解析之后,发送给用户的浏览器 HTML、JS、CSS 等文件,浏览器解析出来,用户便可以看到形形色色的图片了。

因此,用户看到的网页实质是基于HTML代码构成的,其余的样式以及各种绚丽的动画都是通过CSS和JS 技术加载出来的。爬虫爬来的便是这些内容,通过分析和过滤这些 HTML 代码,实现对图片、文字等资源的获取。

3.URL的含义

URL是指统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。

URL的格式由三部分组成:

①第一部分是协议(或称为服务方式)。

②第二部分是存有该资源的主机IP地址(有时也包括端口号)。

③第三部分是主机资源的具体地址,如目录和文件名等。

爬虫爬取数据时必须要有一个目标的URL才可以获取数据,因此,它是爬虫获取数据的基本依据,准确理解它的含义对爬虫学习有很大帮助。

4. 环境的配置

本套教程我们使用python3版本,编辑代码工具使用pycharm.目前还没有搭建起环境的小伙伴可以在后台点击:资源获取按钮,输入数字获取,并进行安装。

5.对爬虫的误解的解释 爬虫不是万能的,但是没有爬虫是万万不能的,开个玩笑。其实爬虫并不是能自动的解决任何事情,有了它能提高生产力那是一定的,但是你想让他向人一样的解决一切问题是不可能的。比如,识别图片,提取一段文字中的意思,这些单纯的靠爬虫技术是完不成的,请大家有一个清晰的认识。

好了本期就先分享到这里,从下一期开始我们就会从0开始一边敲代码一边讲解技术了,各位小伙伴请做好准备!

本文分享自微信公众号 - python编程军火库(PythonCoder1024),作者:还是牛

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-08-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 第二篇 爬虫技术之HTML

    hello,大家好今天我们继续分享爬虫的相关技术,今天我们分享的是html的基础知识。

    还是牛6504957
  • AI_第一部分 数据结构与算法(8.队列)

    第四阶段我们进行深度学习(AI),本部分(第一部分)主要是对底层的数据结构与算法部分进行详尽的讲解,通过本部分的学习主要达到以下两方面的效果:

    还是牛6504957
  • 5分钟面试指南(第十三篇 反射机制)

    本部分我们会为大家提供一些python初级工程师在面试过程中遇到的常见的面试题目,期望达到的效果:

    还是牛6504957
  • 一篇文章带你了解网络爬虫的概念及其工作原理

    众所周知,随着计算机、互联网、物联网、云计算等网络技术的风起云涌,网络上的信息呈爆炸式增长。毋庸置疑,互联网上的信息几乎囊括了社会、文化、政治、经济、娱乐等所有...

    Python进阶者
  • 一篇文章带你了解网络爬虫的概念及其工作原理

    众所周知,随着计算机、互联网、物联网、云计算等网络技术的风起云涌,网络上的信息呈爆炸式增长。毋庸置疑,互联网上的信息几乎囊括了社会、文化、政治、经济、娱乐等所有...

    Python进阶者
  • Python爬虫笔记(一):爬虫基本入门

    最近在做一个项目,这个项目需要使用网络爬虫从特定网站上爬取数据,于是乎,我打算写一个爬虫系列的文章,与大家分享如何编写一个爬虫。这是这个项目的第一篇文章,这次就...

    Angel_Kitty
  • 大规模爬虫流程总结

    爬虫是一个比较容易上手的技术,也许花5分钟看一篇文档就能爬取单个网页上的数据。但对于大规模爬虫,完全就是另一回事,并不是1*n这么简单,还会衍生出许多别的问题。...

    小莹莹
  • 独家 | 一文读懂网络爬虫

    前言 在当前数据爆发的时代,数据分析行业势头强劲,越来越多的人涉足数据分析领域。进入领域最想要的就是获取大量的数据来为自己的分析提供支持,但是如何获取互联网中的...

    数据派THU
  • 【收藏】一文读懂网络爬虫!

    在当前数据爆发的时代,数据分析行业势头强劲,越来越多的人涉足数据分析领域。进入领域最想要的就是获取大量的数据来为自己的分析提供支持,但是如何获取互联网中的有效信...

    昱良
  • 【预备知识篇】python网络爬虫初步_01

    网络爬虫,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。通俗来说就是模拟用户在浏览器上的操作,从特定网站,自动提取对自己有价值的信息。主要通过查找域...

    统计学家

扫码关注云+社区

领取腾讯云代金券