前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >新闻聚源集成 BBC News

新闻聚源集成 BBC News

作者头像
月小水长
发布2022-03-01 11:04:02
4660
发布2022-03-01 11:04:02
举报
文章被收录于专栏:月小水长月小水长

idea of startproject

  1. 对于 web 开发者而言,目前各大新闻门户网站,新浪新闻,百度新闻,腾讯新闻,澎湃新闻,头条新闻并没有提供稳定可用的 feed api。
  2. 对于 nlper,缺乏足够的新闻语料数据集来供训练。
  3. 对于新闻传播/社会学/心理学等从业者,缺乏获取新闻数据的简单易用途径来供分析。
  4. 如果上面三点是某见识所限,其实并不存在的话,第 4 点,则是某的私心,某以为互联网的记忆太短了,热搜一浪盖过一浪,所以试图定格互联网新闻的某些瞬间,最后会以网站的形式发布出来。

https://github.com/Python3Spiders/AllNewsSpider

项目的 github 地址如上,于 2021 年跨年时发布了这个项目,一年间陆续发布了新浪,百度,腾讯,澎湃,泰晤士报,纽约时报等主流新闻媒体。

期间也上线过聚源新闻网站,集成了上述 feed 数据,可惜服务器过期导致网站下线。

restart

2022 年新的一年,又将这个项目拾掇起来了,并且顺带发布了新加入的 BBC News。

pyd 文件在

代码语言:javascript
复制
https://github.com/Python3Spiders/AllNewsSpider/tree/master/bbc

这个 bbc_news_spider 能按照指定的关键词(s)抓取 BBC 新闻网站上的数据,输出字段格式如下。

字段

说明

title

新闻标题

link

新闻链接

summary

新闻概述

head_img

头图

publish_time

发布时间

tags

标签

content

正文

single keyword

代码语言:javascript
复制
from bbc_news_spider import BBCNewsKeywordSearch
search_worker = BBCNewsKeywordSearch()
search_worker.setKeyword("mykeyword")
search_worker.crawl()

batch keyword

代码语言:javascript
复制
from bbc_news_spider import BBCNewsKeywordSearch
search_worker = BBCNewsKeywordSearch()
keywords = ['mykeword1', 'mykeyword2', 'mykeyword3']
search_worker.setKeywordListandRun(keywords)

todo

第一,bbc_bews_spider 只是打印到控制台,验证可行性,没有输出到 csv 文件,原来的几个爬虫可能由于某些原因失效了,可能需要重来。

第二,新闻网站重新上线。

第三,忙死,感慨时间太短,想做什么事情却也什么都做不了…

第四,以上三条不具有并列和先后关系…

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-01-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 月小水长 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • idea of startproject
  • restart
    • single keyword
      • batch keyword
      • todo
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档