我正在考虑建立一个系统来管理和报告网页性能的统计数据。我将收集比标准日志格式(大约20个指标)多得多的统计数据,但与大多数类型的数据库应用程序相比,基本数据结构将非常简单。我的问题是,我将积累大量的数据--每小时大约有100,000条记录(即指标集)。
当然,资源是非常有限的!
为了能够合理地与数据交互,我需要将每个指标整合到一分钟的容器中,按URL分解,然后对于超过1天的任何东西,整合到10分钟的容器中,然后在1周时整合到每小时的容器中。
在前端,我希望提供最后一小时数据的视图(最好是曲线图),使用户能够向上/向下钻取已定义的URL层次结构(并不总是直接映射到URL路径中表示的层次结构),以及查看不同的时间范围。
我想知道是否有工具可以方便地管理数据和报告,而不是自己编写代码并使用关系数据库。
我看过Mondrian,但是从文档中我看不到是否有可能删除更细粒度的信息,同时维护数据的合并视图。
RRDTool在管理数据整合方面看起来很有前途,但在将数据集作为多维/关系数据库进行查询方面似乎相当有限。
我还能看什么呢?
发布于 2011-06-17 17:38:10
还是找不到合适的东西:
虽然我可以在MySQL中以这种速度接收数据,但当我试图合并它/删除旧的低级数据时,它开始变得有点不稳定。因此,我想我将不得不考虑在数据库管理系统的顶部构建聚合层,并切换到noSQL系统-并自己编写:(
发布于 2012-04-21 01:57:36
如果您准备自己管理Graphite实例(并且您可能也在使用Statsd),那么上面提到的Graphite是一个很好的解决方案。或者,有很多其他的托管应用程序也开始提供这种功能。有StatHat、Librato Metrics和我自己公司的产品Instrumental。它绝对可以处理您在我们的最低计划中所要求的指标负载--我们有一个official client (Ruby),一个Statsd-compatible proxy,以及一个记录在案的方法,可以自己发送到我们的收集器,还有一个很好的方法,可以通过我们的API拉回您的指标,以防您想要在我们的图表之外构建自己的表示层。
发布于 2011-01-15 07:48:11
在icCube中,可以非常简单地获得一段时间内具有不同粒度的时间维度(对于“范围/带状”维度的示例,您可以查看here)。然后,可以从CSV文件构建多维数据集。它的XMLA接口允许您使用任何符合XMLA的报告工具。您是否对典型数据集的大小进行了估计?
https://stackoverflow.com/questions/4670025
复制相似问题