还在辛辛苦苦的查找网页规律,写正则或者其他方式去匹配文本内容吗?还在纠结怎么去除小说网站的其他字符吗?
先来看看下面2张图,都是某小说网站的小说内容
怎么样,是不是很简洁!这就是今天给大家介绍的库,newspaper库!
newspaper
安装:pip install newspaper3k
简单的给大家说说它的功能:
首先是获取网页所有url的功能,我们以sina新闻为例子,写代码如下:
看,这就把新浪新闻主页的所有url链接抓到了,是不是很快捷!(当然结果还是需要各种筛选)
来说说今天的重点:提取网页所有文本内容,这次我们随便找个新闻来试试!
是不是很方便~!!而且这个对小说网站依然有效(还记得开始的图吗?)!!大家可以去试试。
最后
这是一个非常不错的库,适合用来写爬虫,如有不懂的地方我在评论区等着你,关注python教程头条号,与你共享更多有用的知识。大家加油!
参考来源:https://github.com/codelucas/newspaper
领取专属 10元无门槛券
私享最新 技术干货