python scrapy多进程新闻爬虫

bear_fish

发布于 2018-09-14 10:04:21

1.7K0

发布于 2018-09-14 10:04:21

3月份的时候，由于工作需要使用python+scrapy框架做了一个新闻舆情的爬虫系统，当时任务比较紧自己也没有搞过爬虫，但最终还是较好的完成了任务，现在把做的大致思路记录分享一下。

首先，展示一下部分截图吧：

本文主要内容如下：

近两年国家对网络的内容监管十分的严格，前一两年被称为“网络直播年”因此出现了有很多直播公司。我们需要第一时间知道有关直播的新闻（直播新闻的特点是新闻会根据标题（包含“直播”，“女直播”）吸引网络用户阅读）。因此我的大致思路是获取各大新闻网站所有的含有相关关键词的新闻，爬取其url以及标题。

由于前面也没有做过爬虫相关的内容，于是google搜索了一下“python common scrape website framework”最终确定使用scrapy框架。

首先上个代码框架的截图吧

代码在个人github上面

注意：

代码的注释还是挺多的，相信大致看一下跑一下应该没什么问题。

本文参与腾讯云自媒体分享计划，分享自作者个人站点/博客。

原始发表：2017年08月28日，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度