这个 project 我几年前就有想法了,仓库两年前就推送到了 Github,只不过只有一个 readme 文件,昨晚跨年,清理 Github,这个想法就又强烈了起来,说干就干。
project 的 Github:https://github.com/Python3Spiders/AllNewsSpider
其实最开始并没有将澎拜新闻包括在内,某最近才开始重点关注澎湃新闻,相对于其它新闻的娱乐性,澎湃新闻的严肃活泼笔风,深得我意。
先说下这个爬虫的实用之处,罗列如下
再说说如何使用(默认读者均有 python3.6+ 环境)
将仓库 pengpai 文件夹下的 pengpai_news_spider.pyd 文件下载到本地,新建项目,把 pyd 文件放进去
项目根目录下新建 runner.py,写入以下代码即可运行并抓取
爬取过程中是下面这样的
图中 https://www.thepaper.cn/newsDetail_forward_10623559 可能是 h5 或者 公众号文章或者 视频
之类的说明该条新闻不在我们的目标爬取范围内,不会被保存起来。
爬取结束了,会在当前目录下生成一个 澎湃新闻.xlsx
文件,里面保持了四个 channel 的所有网站上可浏览的文本新闻,一个 channel 对应一个 sheet_name,如下图
实现增量更新,初步思路是使用布隆过滤器去 news_url 的重。
阅读原文 即可直达 project 的 Github 地址。
最后,新年第一天,元旦快乐!