首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >NoSql解决方案存储20[TB]的数据,作为向量/数组?

NoSql解决方案存储20[TB]的数据,作为向量/数组?
EN

Stack Overflow用户
提问于 2011-04-06 01:03:33
回答 1查看 1.3K关注 0票数 3

我需要构建一个系统来有效地存储和维护大量(20 TB)的数据(并且能够以“向量”的形式访问它)。以下是我的维度:

(1) time (given as an integer of the form YYYYMMDDHHMMSS)

(2) field (a string of any given length, representing a name of a hospital)

(3) instrumentID (an integer representing a uniqueID for the instrument)

我需要一种能够单独存储数据的方法,这意味着,类似于:

商店 23789.46 as the data for instrumentID = 5 on field = 'Nhsdg' on time = 20040713113500

然而,我需要以下查询才能运行FASTgive me all instruments for field 'X' on timestamp 'Y'

为了建立这些系统,我得到了60台双核机器(每台都有1GB的RAM,1.5TB的磁盘)。

对于合适的NoSQL孤子(理想情况下可以使用python),有什么建议吗?

注意事项:系统将首先存储历史数据(大约为20 the )。每天我最多只会增加200 at。我只需要一个规模和规模的解决方案。我的用例只是一个简单的查询:give me all instruments for field 'X' on timestamp 'Y'

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-04-06 01:26:58

MongoDB的扩展非常惊人,并且支持您通常在关系数据库管理系统(如复合关键指标 )中找到的许多索引功能。可以对数据中的名称和时间属性使用复合索引。然后,您可以检索具有特定名称和日期范围的所有仪器读数。

现在,在一个简单的情况下,您对一个基本的查询非常感兴趣,而没有其他的,您可以将名称和时间戳组合起来,并调用您的密钥,它可以在任何键值存储中工作.

HBase是另一个很好的选择。您可以在名称和日期上使用复合行键

正如其他人所提到的,您肯定可以使用关系数据库。MySQL & PostgreSQL当然可以处理负载,而且在这个场景中表分区也可能是可取的,因为您处理的是时间范围。可以使用大容量加载(并在加载期间禁用索引)来减少插入时间。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5560394

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档