首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >实时数据处理和报告(建议)

实时数据处理和报告(建议)
EN

Stack Overflow用户
提问于 2017-06-15 00:04:56
回答 1查看 66关注 0票数 0

TLDR;

好的,所以我在下面写的不是很清楚…

长话短说。我正在寻找一种数据库解决方案,它支持高速摄取,快速处理和执行大型和复杂查询的能力,直接通过API (用于客户端报告)或通过客户端,可以通过API访问。

虽然我已经看过了各种解决方案,但我(在这个领域)没有足够的经验来知道哪一个是最好的,以及它们的实现是否适合我的需求(因此我试图解释我的需求)。

我们目前使用了很多AWS服务,因此任何直接托管或通过AMI托管的服务都可能是有用的。

我被赋予了重新设计和升级我们目前的数据分析系统的任务,该系统基本上运行在极其陈旧和不受支持的软件上,相当缓慢,完全不可扩展。

背景

目前,我们有一个ColdFusion服务器,可以监听通过电子邮件、FTP和通过我们的客户端接口手动上传的文件。然后,文件被解析并被摄取到事实数据表中。

然后将作业添加到队列中,该队列告诉我们的数据处理器在30分钟的间隔内收集事实记录,并对其运行一些计算。

由于ColdFusion时代的到来,我们决定摆脱它,寻找更具物联网/大数据意识的东西。

我尝试过的

数据重构/规范化

因此,许多功能都是基于10多年前客户/用户定义的需求,而这些需求已经不再相关。考虑到这一点,对数据进行了重组,使其更易于理解和索引。

事实/汇总表

由于每个数据记录之间的间隔可能是完全随机的,即1-30分钟,因此系统必须处理所有这些时间间隔,同时提供一致的体验。这就是为什么我们当前的系统默认以30分钟为间隔进行报告。

事实表包含根据ID和时间戳索引的原始数据,即id, timestamp, value

然后,我研究了如何使用窗口函数为记录之间的每分钟生成行,将记录之间的差值除以分钟数并填补空白处。

这显然导致汇总表中至少有48行变成了1440行,这进一步减慢了速度。

另一种尝试的解决方案是使用如上所述的窗口函数,但在查询用于报告的数据时-这立即失败了。

ElasticCache/Solr

在处理完数据后,我考虑使用ElasticCache或类似的索引,初始测试看起来不错,但它们的聚合功能并不适合我需要的功能(例如,您可以按日期等分组,但是您会失去分页的能力)。

现在怎么办..。

因此,我一直在寻找各种内存中的解决方案,例如Hadoop/Hive,从表面上看,它们看起来很棒,我担心的是如何将数据提供给前端。

我想这需要一个API来与Hadoop/Hive通信?

我很感谢这是一个开放的问题,但我的雇主限制了我,除非我能证明我已经用尽了所有的途径,否则他不会为某人付钱。

EN

回答 1

Stack Overflow用户

发布于 2018-06-26 12:02:54

你的要求有点模糊。因此,让我尝试提出一个选项,如果您愿意,我很乐意通过更新我的答案来深入探讨。

既然您提到您目前已经使用了很多亚马逊网络服务,您是否考虑过使用亚马逊网络服务IoT分析来处理、存储和分析您的IoT数据?它带有一个可扩展的摄取部分,针对IoT用例进行了优化的数据存储,并与亚马逊网络服务机器学习套件和QuickSight集成以进行分析。

看看这里:https://aws.amazon.com/iot-analytics

免责声明:我在AWS工作,但本文仅基于我的个人观点,并不是AWS的官方声明。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44549678

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档