文章/答案/技术大牛

发布

社区首页 >问答首页 >NoSql解决方案存储20[TB]的数据，作为向量/数组？

问NoSql解决方案存储20[TB]的数据，作为向量/数组？
EN

Stack Overflow用户

提问于 2011-04-06 01:03:33

回答 1查看 1.3K关注 0票数 3

我需要构建一个系统来有效地存储和维护大量(20 TB)的数据(并且能够以“向量”的形式访问它)。以下是我的维度：

(1) time (given as an integer of the form YYYYMMDDHHMMSS)

(2) field (a string of any given length, representing a name of a hospital)

(3) instrumentID (an integer representing a uniqueID for the instrument)

我需要一种能够单独存储数据的方法，这意味着，类似于：

商店 23789.46 as the data for instrumentID = 5 on field = 'Nhsdg' on time = 20040713113500

然而，我需要以下查询才能运行FAST：give me all instruments for field 'X' on timestamp 'Y'。

为了建立这些系统，我得到了60台双核机器(每台都有1GB的RAM，1.5TB的磁盘)。

对于合适的NoSQL孤子(理想情况下可以使用python)，有什么建议吗？

注意事项：系统将首先存储历史数据(大约为20 the )。每天我最多只会增加200 at。我只需要一个规模和规模的解决方案。我的用例只是一个简单的查询：give me all instruments for field 'X' on timestamp 'Y'

nosql

python

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-04-06 01:26:58

MongoDB的扩展非常惊人，并且支持您通常在关系数据库管理系统(如复合关键指标 )中找到的许多索引功能。可以对数据中的名称和时间属性使用复合索引。然后，您可以检索具有特定名称和日期范围的所有仪器读数。

现在，在一个简单的情况下，您对一个基本的查询非常感兴趣，而没有其他的，您可以将名称和时间戳组合起来，并调用您的密钥，它可以在任何键值存储中工作.

HBase是另一个很好的选择。您可以在名称和日期上使用复合行键。

正如其他人所提到的，您肯定可以使用关系数据库。MySQL & PostgreSQL当然可以处理负载，而且在这个场景中表分区也可能是可取的，因为您处理的是时间范围。可以使用大容量加载(并在加载期间禁用索引)来减少插入时间。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/5560394

复制

相似问题

问NoSql解决方案存储20[TB]的数据，作为向量/数组？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问NoSql解决方案存储20[TB]的数据，作为向量/数组？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问NoSql解决方案存储20[TB]的数据，作为向量/数组？
EN