问大数据量多属性时序数据的解决方案
EN

Stack Overflow用户

提问于 2015-11-11 07:38:00

回答 1查看 274关注 0票数 0

我正在做一个新闻分析项目，我们从实时新闻流中检索事件，并为某些金融工具做情绪。目前，我们只为每个工具生成一个时间序列情感流，该流是从100多种事件中聚合而来的，许多新闻website.We使用Postgres来存储结构化数据，预先计算/聚合情感，并在涌入时存储，以支持前端的实时流。

我们正在考虑扩展功能，让用户能够选择范围内的事件类型和新闻来源，这样每个用户就可以有不同的情感流。用户应该能够进一步分解情绪，只有特定的事件类型或来源。理想的解决方案应该能够让用户定义范围，并在飞行中接收聚合情绪。

我很难想象在没有任何预计算的情况下，聚合可以完全即时完成。另一方面，最具原子性的时间序列是每个新闻源的每个事件类型。但是通过这种方式，我们需要维护( 100个事件类型*100个新闻源* 1000个仪器)1000万个系列？进一步增加新闻来源将使系统无法维护。

谁能分享一些想法，什么样的架构或技术解决方案可以支持我们的需求？

发布于 2015-11-12 11:50:48

如果所有事件类型和源共享相同的仪器，则可以创建一个流，并将事件类型和源作为流(系列)中的属性。然后，您可以根据需要按属性对流进行过滤。

但是，如果不同的信号源有不同的仪器和事件类型，那么您可以有一个用于仪器的流(时间序列)，并将信号源和事件类型作为属性添加到每个流中，以便您可以按属性进行过滤。

通常，尝试减少流数量，并将信息编码为属性。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/33641732

复制

相似问题

问大数据量多属性时序数据的解决方案EN