Python爬虫,用第三方库解决下载网页中文本的问题

还在辛辛苦苦的查找网页规律,写正则或者其他方式去匹配文本内容吗?还在纠结怎么去除小说网站的其他字符吗?

先来看看下面2张图,都是某小说网站的小说内容

怎么样,是不是很简洁!这就是今天给大家介绍的库,newspaper库!

newspaper

安装:pip install newspaper3k

简单的给大家说说它的功能:

首先是获取网页所有url的功能,我们以sina新闻为例子,写代码如下:

看,这就把新浪新闻主页的所有url链接抓到了,是不是很快捷!(当然结果还是需要各种筛选)

来说说今天的重点:提取网页所有文本内容,这次我们随便找个新闻来试试!

是不是很方便~!!而且这个对小说网站依然有效(还记得开始的图吗?)!!大家可以去试试。

最后

这是一个非常不错的库,适合用来写爬虫,如有不懂的地方我在评论区等着你,关注python教程头条号,与你共享更多有用的知识。大家加油!

参考来源:https://github.com/codelucas/newspaper

原文发布于微信公众号 - 云飞学python(P542110741)

原文发表时间:2018-06-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏黑白安全

黑客怎样用谷歌查找信息?

黑客去入侵一个网站的时候往往需要搜集它的很多信息,这其中包括利用网站漏洞,社工,还有就是用搜索引擎进行搜索,而常被我们利用的搜索网站——谷歌就是一个非常好的信息...

2194
来自专栏IT派

厉害!黑客怎样用谷歌查找信息?

IT派 - {技术青年圈} 持续关注互联网、区块链、人工智能领域 黑客去入侵一个网站的时候往往需要搜集它的很多信息,这其中包括利用网站漏洞,社工,还有就是用...

3686
来自专栏点滴积累

geotrellis使用(十三)数据导入BUG解决方案说明

Geotrellis系列文章链接地址http://www.cnblogs.com/shoufengwei/p/5619419.html 目录 前言 BUG说明...

3817
来自专栏FreeBuf

Zip Slip漏洞影响大量项目,多个生态系统受牵连

近期,来自Synk的安全研究专家公布了一个高危漏洞的技术细节信息,而这个漏洞将影响多个负责处理压缩文档文件的开源代码库。

1080
来自专栏Linyb极客之路

编码习惯之异常处理

对于大型IT系统,最怕的事情第一是系统出现了异常我不知道,等问题闹大了用户投诉了才知道出问题了。第二就是出了问题之后无法找到出错原因。针对这2个问题,说说我们项...

3049
来自专栏微信小程序开发

微信小程序开发常见问题(二)

知晓程序员,专注微信小程序开发的程序员! 今天再给大家分享几个微信小程序开发的常见问题,顺便吐槽一下,武汉的冬天太TM冷了,没有暖气的冬天真的很难过,写文章的心...

4865
来自专栏架构师之路

计数系统架构实践一次搞定 | 架构师之路

提醒,本文较长,可提前收藏/转发。 一、需求缘起 很多业务都有“计数”需求,以微博为例: ? 微博首页的个人中心部分,有三个重要的计数: 关注了多少人的计数 粉...

5296
来自专栏WeTest质量开放平台团队的专栏

内存是手游的硬伤——Unity游戏Mono内存管理与泄漏

内存是游戏的硬伤,如果没有做好内存的管理问题,游戏极有可能会出现卡顿,闪退等影响用户体验的现象。本文介绍了在腾讯游戏在Unity游戏开发过程中常见的Mono内存...

922
来自专栏owent

libcopp v2的第一波优化完成

之前测出来libcopp还有一些列优化点,但是要破坏之前的API,所以整理了一下优化的想法和方案。

2582
来自专栏灯塔大数据

技术 | Python从零开始系列连载(十六)

那什么是模块呢?简单的讲,就是一些包装好的内容,当你要用到一些操作在这个模块中时,你就先要导入它

992

扫码关注云+社区

领取腾讯云代金券