首页
学习
活动
专区
工具
TVP
发布

爬取新闻并进行数据分析

最近在忙着写一篇论文

“分析几个主流媒体(最好有开放相关资料获取渠道的媒体)的URL,定期爬取特定新闻; 选择几种不同类型的数据库,比如MySQL,PostgreSQL,Cassandra,设定相关数据结构,并对这些数据库的效能进行对比分析,如有可能,再提高效能。”

以上是导师的课题要求。

记忆中的要求还有:

1.使用MongoDB(不一定是关系型数据库)。

2.Deadline:年后三月去深圳之前。

3.使用Python编写爬虫。

4.数据先存入Redis而不是硬盘中(Redis是一个使用ANSI C编写的开源、支持网络、基于内存、可选持久性的键值对存储数据库)。

5.爬取财经新闻(可能需要挂代理),并进行语义分析(分词工具)对相同的新闻进行归类,调查他们对股价的影响。

6.爬取的东西可能是旧新闻(做学术报告用?)。

7.分布式多线程爬取。

8.学习不同的关系型数据库比如MySQL,PostgreSQL,Cassandra,设定相关数据结。构,并对这些数据库的效能进行对比分析。

9.设计未达预定要求可能会挂科。

以及他的原话:

1. 爬舊新聞不一定是要做學術,實務上做量化交易的回測也很有用,現在我接觸的銀行,也很依賴爬蟲來做大環境的風控。不論是學術或實務,爬下來的東西主要是能驗証某些規律,既然要看規律,當然不能只看眼下的事。

2. 爬國外和國內網站時,要把時區標註好(最好是當地時間,與GMT + 0)。

3. MongoDB 也有Memory DB的功能,跟Redis哪個效能好,你也試一下。

接下来要做三件事情:

新闻爬虫设计。

数据库存储和架构设计。

前端数据可视化(包含分析)。

期间相关文档会看很多,自己的想法也找个平台发布纪念一下。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171210G0HCUC00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券