我需要维护每小时存储大量计数器的表。我计划在任何时候只保留当前的每小时表和前一小时的表,因为旧的数据对我来说并不重要。
对于ex。如果时间是下午4:30,我将在下午3:00 - 4:00有一个小时餐桌,而现在的小时餐桌是下午4:00 -4: 30。一旦时间超过下午5:00,我就会删除3:00-4:00的表。
每个每小时的表将增长到最大7-8 gb,并且查询是高度并发和面向写入的(10:1写入:读取,每秒20000次写入,平均每秒2000次读取)。
由于数据的大小很小(在我的数据库中最大为10 go ),并且所有查询都是计数器增量,我应该使用像Cassandra(计数器列)这样的键值存储,还是像Redis这样的内存数据库。(我计划对数据库进行分区,以分担巨大的写入负载)?
谢谢。
发布于 2012-09-19 06:50:00
这听起来像是内存中处理的任务: HashMap比最快的数据库快得多。所以,我推荐使用hazelcast (http://www.hazelcast.com/)或storm (https://github.com/nathanmarz/storm)。
可以定期将计数器转储到一些内存中的DB (如Redis或Memcached),以使查询更简单。但它是完全可以在内存中完成的,根本不需要任何DB后端。
Cassandra看起来像是这项任务的过度杀伤力:当你需要以复制和高度可用的方式永远存储to级的数据时,这是令人惊叹的,但如果你以前从未这样做过,那么将其设置为高负载并不是一件微不足道的事情。
https://stackoverflow.com/questions/12478403
复制相似问题