我正在做一个新闻分析项目,我们从实时新闻流中检索事件,并为某些金融工具做情绪。目前,我们只为每个工具生成一个时间序列情感流,该流是从100多种事件中聚合而来的,许多新闻website.We使用Postgres来存储结构化数据,预先计算/聚合情感,并在涌入时存储,以支持前端的实时流。
我们正在考虑扩展功能,让用户能够选择范围内的事件类型和新闻来源,这样每个用户就可以有不同的情感流。用户应该能够进一步分解情绪,只有特定的事件类型或来源。理想的解决方案应该能够让用户定义范围,并在飞行中接收聚合情绪。
我很难想象在没有任何预计算的情况下,聚合可以完全即时完成。另一方面,最具原子性的时间序列是每个新闻源的每个事件类型。但是通过这种方式,我们需要维护( 100个事件类型*100个新闻源* 1000个仪器)1000万个系列?进一步增加新闻来源将使系统无法维护。
谁能分享一些想法,什么样的架构或技术解决方案可以支持我们的需求?
发布于 2015-11-12 11:50:48
如果所有事件类型和源共享相同的仪器,则可以创建一个流,并将事件类型和源作为流(系列)中的属性。然后,您可以根据需要按属性对流进行过滤。
但是,如果不同的信号源有不同的仪器和事件类型,那么您可以有一个用于仪器的流(时间序列),并将信号源和事件类型作为属性添加到每个流中,以便您可以按属性进行过滤。
通常,尝试减少流数量,并将信息编码为属性。
https://stackoverflow.com/questions/33641732
复制相似问题