专栏首页一个爱吃西瓜的程序员Python爬虫学习--用爬虫抓取糗事百科的笑料

Python爬虫学习--用爬虫抓取糗事百科的笑料

构造一个爬虫需要以下四个步骤:分析目标、下载页面、解析页面、存储内容,其中存储内容暂且不提。(因为我还没学)

◆ 分析目标:我的目标是抓取糗事百科24小时热门笑料的第一页的所有笑料内容,不包括图片信息。如下图:

① 目标URL:https://www.qiushibaike.com/hot/page/1/

② 目标内容的标签、属性等内容:在指定内容处右键点击检查,就会显示出该内容处于什么标签,什么属性中,如下图所示,该文本内容处于<div>标签下的class="content"属性中:

③ 页面编码:在指定网页的空白处右键点击检查,就会显示出该网页的开发者界面,里面包含了该网页的所有代码信息,如下图所示,网页的文本采取“UTF-8”编码格式:

最简单的分析目标就以上三点,复杂的爬虫还需要分析更多的内容。

◆ 下载页面:使用Python自带的urilib库的urlopen方法进行下载,源码如下:(为了让爬虫能够顺利的获取到网页内容,最好给它设置一个代理头,伪装成浏览器的样子,这样网站服务器就不会阻止我获取内容了。这算是最简单的反爬取策略。)

顺便用.getcode()方法验证一下是否成功获取到网页内容。

◆ 解析网页:用强大的第三方库:Beautiful Soup进行解析,源码如下:

指定用“html.parser”作为解析器,指定编码格式。然后用.find_all()方法找出指定标签"div", class_="content" 的文本内容。

用for循环将获取的文本内容打印到屏幕上:

顺便设置一下错误处理机制:

输出结果如下:(内容较多,我只截取了部分)

所有源码如下:

该爬虫有以下几个重大缺陷:

1:只爬取了第一个网页,不能爬取多个网页。

2:只能爬取文本内容,不能爬取发布人信息、点赞数、图片信息等。

3:只是输出到屏幕,没有输出到文件,不方便保存,分享,查看。

每天学习一点点,每天进步一点点

本文分享自微信公众号 - 小白客(youcoding)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-10-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Web前端基础【2】--CSS基础

    CSS指层叠样式表,用来定义如何显示HTML元素,一般和HTML配合使用。CSS样式表的目的是为了解决内容与表现分离的问题:即使同一个HTML文档也能表现出外观...

    爱吃西瓜的番茄酱
  • Python爬虫学习--爬虫基本架构

    一个简单的爬虫架构由爬虫调度端、URL管理器、网页下载器和网页解析器四部分构成。它们之间的关系如下图: ? ● 爬虫调度端:启动爬虫,停止爬虫,监视爬虫的运行情...

    爱吃西瓜的番茄酱
  • 分享五款实用的软件

    前几天发的推文太干了,确实有点看不下去。偶尔还是换点口味吧,哈哈。 今天我给大家分享几个实用的软件,有需要的就尽管拿去嘛。 藏书馆 支持平台:iOS/A...

    爱吃西瓜的番茄酱
  • 前端学习笔记之CSS选择器

        id > 类 > 标签 > 通配符(也算直接选中) > 继承 > 浏览器默认(即没有设置任何属性)

    Jetpropelledsnake21
  • R语言对回归模型进行回归诊断

    作者:夏尔康 https://ask.hellobi.com/blog/xiaerkang/4129 在R语言中,对数据进行回归建模是一件很简单的事情,一个lm...

    机器学习AI算法工程
  • 3️⃣ 多序列比对(3):工具和数据库

    另外还有http://www.bioinformatics.utep.edu/BIMER/tools/msa.html https://www.expasy....

    Y大宽
  • 前端面试题-HTML语义化标签

    (2)搜索引擎会把 title 作为判断页面主要内容的指标,有效的 title 应该包含几个与页面内容密切相关的关键字,建议将 title 的核心内容写在前 6...

    WEBING
  • 利用frm文件和ibd文件恢复表数据

    在MySQL中,如果我们使用了默认的存储引擎innodb创建一张表,那么在文件夹下面就会出现表名.frm和表名.ibd两个文件,如果我们使用的是Myisa...

    AsiaYe
  • 吸睛大法!如何突出网页中的关键内容?

    我有特别的抢眼技巧!今天的好文非常值得拜读,此文从对比、色彩、字体、留白等方面帮同学们将最关键的内容呈现出来,文末还附上一个特别有效果的检测方法,一眼就能看出你...

    用户1756920
  • 国际互联网巨头都为中国这个事点赞,比饭局重要一百倍?

    今年的乌镇互联网大会,饭局成了吃瓜群众们最津津乐道的事,特别是马云笑谈之间的回应,更是让今年的饭局味道与往年不同。 今年不只是有传统的丁磊猪肉局,还有刘强东和王...

    罗超频道

扫码关注云+社区

领取腾讯云代金券