最近在忙着写一篇论文
“分析几个主流媒体(最好有开放相关资料获取渠道的媒体)的URL,定期爬取特定新闻; 选择几种不同类型的数据库,比如MySQL,PostgreSQL,Cassandra,设定相关数据结构,并对这些数据库的效能进行对比分析,如有可能,再提高效能。”
以上是导师的课题要求。
记忆中的要求还有:
1.使用MongoDB(不一定是关系型数据库)。
2.Deadline:年后三月去深圳之前。
3.使用Python编写爬虫。
4.数据先存入Redis而不是硬盘中(Redis是一个使用ANSI C编写的开源、支持网络、基于内存、可选持久性的键值对存储数据库)。
5.爬取财经新闻(可能需要挂代理),并进行语义分析(分词工具)对相同的新闻进行归类,调查他们对股价的影响。
6.爬取的东西可能是旧新闻(做学术报告用?)。
7.分布式多线程爬取。
8.学习不同的关系型数据库比如MySQL,PostgreSQL,Cassandra,设定相关数据结。构,并对这些数据库的效能进行对比分析。
9.设计未达预定要求可能会挂科。
以及他的原话:
1. 爬舊新聞不一定是要做學術,實務上做量化交易的回測也很有用,現在我接觸的銀行,也很依賴爬蟲來做大環境的風控。不論是學術或實務,爬下來的東西主要是能驗証某些規律,既然要看規律,當然不能只看眼下的事。
2. 爬國外和國內網站時,要把時區標註好(最好是當地時間,與GMT + 0)。
3. MongoDB 也有Memory DB的功能,跟Redis哪個效能好,你也試一下。
接下来要做三件事情:
新闻爬虫设计。
数据库存储和架构设计。
前端数据可视化(包含分析)。
期间相关文档会看很多,自己的想法也找个平台发布纪念一下。
领取专属 10元无门槛券
私享最新 技术干货