我正在使用Cassandra来存储我解析的站点日志。我有两个具有多个二级索引的列族。日志数据本身的大小约为30 gb。但是,cassandra数据目录的大小约为91G。有什么办法可以缩小这家店的规模吗?此外,拥有多个二级索引是否会对数据存储大小产生很大影响?
发布于 2011-07-03 04:50:49
潜在地,二级索引可能会有很大的影响,但很明显,这取决于你在其中放了什么!如果您的大多数数据条目出现在一个或多个索引中,那么这些索引可能会形成很大一部分存储空间。
您可以查看每个列族使用JConsole和/或'nodetool cfstats‘的空间大小。
您还可以查看磁盘数据文件的大小,以了解其使用情况。
也有可能是数据没有足够频繁地刷新到磁盘-这可能会导致大量提交日志文件长时间留在磁盘上,占用额外的空间。如果您的某些柱族仅受轻载,则可能会发生这种情况。请参见http://wiki.apache.org/cassandra/MemtableThresholds以获取调整此设置的参数。
如果您有非常多的小列,那么列名可能会占用很大一部分存储空间,因此在有意义的地方缩短它们可能是值得的(如果它们是时间戳或其他有意义的数据!)。
https://stackoverflow.com/questions/6559429
复制相似问题