https://github.com/Python3Spiders/AllNewsSpider
项目的 github 地址如上,于 2021 年跨年时发布了这个项目,一年间陆续发布了新浪,百度,腾讯,澎湃,泰晤士报,纽约时报等主流新闻媒体。
期间也上线过聚源新闻网站,集成了上述 feed 数据,可惜服务器过期导致网站下线。
2022 年新的一年,又将这个项目拾掇起来了,并且顺带发布了新加入的 BBC News。
pyd 文件在
https://github.com/Python3Spiders/AllNewsSpider/tree/master/bbc
这个 bbc_news_spider 能按照指定的关键词(s)抓取 BBC 新闻网站上的数据,输出字段格式如下。
字段 | 说明 |
---|---|
title | 新闻标题 |
link | 新闻链接 |
summary | 新闻概述 |
head_img | 头图 |
publish_time | 发布时间 |
tags | 标签 |
content | 正文 |
from bbc_news_spider import BBCNewsKeywordSearch
search_worker = BBCNewsKeywordSearch()
search_worker.setKeyword("mykeyword")
search_worker.crawl()
from bbc_news_spider import BBCNewsKeywordSearch
search_worker = BBCNewsKeywordSearch()
keywords = ['mykeword1', 'mykeyword2', 'mykeyword3']
search_worker.setKeywordListandRun(keywords)
第一,bbc_bews_spider 只是打印到控制台,验证可行性,没有输出到 csv 文件,原来的几个爬虫可能由于某些原因失效了,可能需要重来。
第二,新闻网站重新上线。
第三,忙死,感慨时间太短,想做什么事情却也什么都做不了…
第四,以上三条不具有并列和先后关系…