爬取新闻并进行数据分析

文章来源：企鹅号 - littleairplane

最近在忙着写一篇论文

“分析几个主流媒体（最好有开放相关资料获取渠道的媒体）的URL，定期爬取特定新闻；选择几种不同类型的数据库，比如MySQL，PostgreSQL，Cassandra，设定相关数据结构，并对这些数据库的效能进行对比分析，如有可能，再提高效能。”

以上是导师的课题要求。

记忆中的要求还有：

1.使用MongoDB（不一定是关系型数据库）。

2.Deadline：年后三月去深圳之前。

3.使用Python编写爬虫。

4.数据先存入Redis而不是硬盘中（Redis是一个使用ANSI C编写的开源、支持网络、基于内存、可选持久性的键值对存储数据库）。

5.爬取财经新闻（可能需要挂代理），并进行语义分析（分词工具）对相同的新闻进行归类，调查他们对股价的影响。

6.爬取的东西可能是旧新闻（做学术报告用？）。

7.分布式多线程爬取。

8.学习不同的关系型数据库比如MySQL，PostgreSQL，Cassandra，设定相关数据结。构，并对这些数据库的效能进行对比分析。

9.设计未达预定要求可能会挂科。

以及他的原话：

1. 爬舊新聞不一定是要做學術，實務上做量化交易的回測也很有用，現在我接觸的銀行，也很依賴爬蟲來做大環境的風控。不論是學術或實務，爬下來的東西主要是能驗証某些規律，既然要看規律，當然不能只看眼下的事。

2. 爬國外和國內網站時，要把時區標註好（最好是當地時間，與GMT + 0）。

3. MongoDB 也有Memory DB的功能，跟Redis哪個效能好，你也試一下。

接下来要做三件事情：

新闻爬虫设计。

数据库存储和架构设计。

前端数据可视化（包含分析）。

期间相关文档会看很多，自己的想法也找个平台发布纪念一下。

相关快讯