专栏首页Python数据科学Python爬虫之入门学习

Python爬虫之入门学习

大家好,相信点进来看的小伙伴们都对爬虫非常感兴趣,博主也是一样的。博主刚开始接触爬虫的时候,就被深深吸引了,因为感觉SO COOL啊!每当敲完代码后看着一串串数据在屏幕上浮动,感觉很有成就感,有木有?更厉害的是,爬虫的技术可以应用到很多生活场景中,例如,自动投票啊,批量下载感兴趣的文章、小说、视频啊,微信机器人啊,爬取重要的数据进行数据分析啊,切实的感觉到这些代码是给自己写的,能为自己服务,也能为他人服务,所以人生苦短,我选爬虫。

说实在的,博主也是个朝九晚五的上班族,学习爬虫也是利用业余时间,但就凭着对爬虫的热情开始了爬虫的学习之旅,俗话说嘛,兴趣是最好的老师。博主也是一个小白,开这个公众号的初衷就是想和大家分享一下我学习爬虫的一些经验以及爬虫的技巧,当然网上也有各种各样的爬虫教程都可供大家参考学习,在后面博主会分享一些开始学习时用到的资源。好了,不废话了,开始我们的正题。

1. 什么是爬虫?

首先应该弄明白一件事,就是什么是爬虫,为什么要爬虫,博主百度了一下,是这样解释的:

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

其实,说白了就是爬虫可以模拟浏览器的行为做你想做的事,订制化自己搜索和下载的内容,并实现自动化的操作。比如浏览器可以下载小说,但是有时候并不能批量下载,那么爬虫的功能就有用武之地了。

实现爬虫技术的编程环境有很多种,Java,Python,C++等都可以用来爬虫。但是博主选择了Python,相信很多人也一样选择Python,因为Python确实很适合做爬虫,丰富的第三方库十分强大,简单几行代码便可实现你想要的功能,更重要的,Python也是数据挖掘和分析的好能手。这样爬取数据和分析数据一条龙的服务都用Python真的感觉很棒啊!

2. 爬虫的学习路线

知道了什么是爬虫,给大家说说博主总结出的学习爬虫的基本路线吧,只供大家参考,因为每个人都有适合自己的方法,在这里只是提供一些思路。

学习Python爬虫的大致步骤如下:

  1. 首先学会基本的Python语法知识(可以参考下面的爬虫资料);
  2. 学习Python爬虫常用到的几个重要内置库urllib, http等,用于下载网页;
  3. 学习正则表达式re、BeautifulSoup(bs4)、Xpath(lxml)等网页解析工具;
  4. 开始一些简单的网站爬取(博主从百度开始的,哈哈),了解爬取数据过程;
  5. 了解爬虫的一些反爬机制,header,robot,时间间隔,代理ip,隐含字段等;
  6. 学习一些特殊网站的爬取,解决登录、Cookie、动态网页等问题;
  7. 了解爬虫与数据库的结合,如何将爬取数据进行储存;
  8. 学习应用Python的多线程、多进程进行爬取,提高爬虫效率;
  9. 学习爬虫的框架,Scrapy、PySpider等;
  10. 学习分布式爬虫(数据量庞大的需求);

以上便是一个整体的学习概况,好多内容博主也需要继续学习,关于提到的每个步骤的细节,博主会在后续内容中以实战的例子逐步与大家分享,当然中间也会穿插一些关于爬虫的好玩内容。

3. 爬虫资源

博主用过的一些关于Python入门的一些书籍和资源,供大家参考。

Python学习书籍

byte-of-python:快速了解Python的一本书,书很薄,易懂易学。

Python基础教程:Python基础教程的经典。

Python 核心编程:提供了丰富的例子,讲述Python在各种环境下应用的讲解,很赞。

廖雪峰Python教学

Python基础-菜鸟教程

博主会在后续发出更多精彩的内容与大家分享,欢迎一起讨论学习,敬请期待!

本文分享自微信公众号 - Python数据科学(Python_Spiderman),作者:xiaoyu

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-12-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 33款你可能不知道的开源爬虫软件工具

    爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。

    用户2769421
  • 又一家数据公司被查,爬虫到底做错了什么?

    以上是昨天技术圈传播的一则新闻,又一家数据公司被调查,很多数据从业者、爬虫开发者发出了“感叹” —— 「爬虫用得好,XX进得早;数据玩得溜,XX吃个够」。

    用户2769421
  • 给爬虫爱好者的福利 SelectGadget

    相信爬虫的爱好者们都经历过这样一个爬虫前期的准备过程,那就是用浏览器的审查元素进行爬取目标的定位。每次我们都要浪费部分时间去寻找定位点和xpath,这样既不很方...

    用户2769421
  • 爬虫篇 | Python爬虫学前普及

    最近整理一个爬虫系列方面的文章,不管大家的基础如何,我从头开始整一个爬虫系列方面的文章,让大家循序渐进的学习爬虫,小白也没有学习障碍.

    龙哥
  • 成千上万个站点,日数据过亿的大规模爬虫是怎么实现的?

    1.网页文本智能提取;2.分布式爬虫;3.爬虫 DATA/URL 去重;4.爬虫部署;5.分布式爬虫调度;6.自动化渲染技术;7.消息队列在爬虫领域的应用;8....

    青南
  • 常见的反爬虫技术有哪些?如何防止别人爬自己的网站?

    爬虫与反爬虫是互联网开发工程师之间的斗智斗勇。作为网站开发者既要掌握爬虫的技术,还要更进一步去了解如何实现反爬虫。

    用户2781897
  • 安全报告 | 2018上半年互联网恶意爬虫分析:从全景视角看爬虫与反爬虫

    云鼎实验室
  • Python爬虫之爬虫概述

    网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端(主要指浏览器)发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。

    海仔
  • 【推荐收藏】33款可用来抓数据的开源爬虫软件工具

    要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很...

    钱塘数据
  • 爬虫到底违法吗?这位爬虫工程师给出了答案

    大家好,本期将为大家来采访一位爬虫工程师,与他相识是在一个技术号主群中,只有他怼了我的文章,所以也算不打不相识!他便是小周码字号主:Loco。

    龙哥

扫码关注云+社区

领取腾讯云代金券