前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python爬虫,用第三方库解决下载网页中文本的问题

Python爬虫,用第三方库解决下载网页中文本的问题

作者头像
云飞
发布2018-09-14 11:16:45
5080
发布2018-09-14 11:16:45
举报
文章被收录于专栏:云飞学编程云飞学编程

还在辛辛苦苦的查找网页规律,写正则或者其他方式去匹配文本内容吗?还在纠结怎么去除小说网站的其他字符吗?

先来看看下面2张图,都是某小说网站的小说内容

怎么样,是不是很简洁!这就是今天给大家介绍的库,newspaper库!

newspaper

安装:pip install newspaper3k

简单的给大家说说它的功能:

首先是获取网页所有url的功能,我们以sina新闻为例子,写代码如下:

看,这就把新浪新闻主页的所有url链接抓到了,是不是很快捷!(当然结果还是需要各种筛选)

来说说今天的重点:提取网页所有文本内容,这次我们随便找个新闻来试试!

是不是很方便~!!而且这个对小说网站依然有效(还记得开始的图吗?)!!大家可以去试试。

最后

这是一个非常不错的库,适合用来写爬虫,如有不懂的地方我在评论区等着你,关注python教程头条号,与你共享更多有用的知识。大家加油!

参考来源:https://github.com/codelucas/newspaper

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-06-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 云飞学python 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • newspaper
  • 最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档