前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >MONGODB 磁盘与内存的数据格式是否一致

MONGODB 磁盘与内存的数据格式是否一致

作者头像
AustinDatabases
发布2019-11-04 16:06:47
1.1K0
发布2019-11-04 16:06:47
举报
文章被收录于专栏:AustinDatabasesAustinDatabases
最近MONGODB 系统中的数据量逐渐变大,联系了开发准备开始进行数据的archive 和 cleanup 事宜。其中运维的同学问我,你存储的数据size 和实际的数据 size 是不一样的,我回答那是mongodb 自带的数据压缩功能。

但后续的问题我模糊了,例如磁盘和内存的数据是否完全一致,压缩的比率是多少,等等。人无完人,我也不是DB 百科全书。不过好在还不是中年油腻大叔,模糊了那就learning 去。

那就直奔主题wiredTiger , wiredTiger 作为MONGODB 的主力存储引擎(3.0以后,当然还有PERCONA 但目前不主流)。

首先我们看看wiredTiger 到底是怎么存储数据的,本身wiredTiger 存储数据的方式有两种, 行模式 和 列模式。而这两种方式都是使用 B+ TREE的方式来进行数据的存储的。

在行模式中,KEY 与 Values 都是 strings 可变的,而如果采用列的方式,key是通过 64BIT的方式记录 Values 和行模式一样。所以行与列的模式中不同的是 key 的存储方式。

这两种存储方式各有优点和缺点

行的方式提取整行数据快,但需要的存储空间大,并且如果某些方面设计不好,消耗的I/O 无论从性能还是尺寸上都比较大。

列式存储则适合提取所需的字段(意思就是最好别一次提取较多的字段,否则没优势),并且存储的值被限制在 8-BITS 这限制值的大小。相关的mongodb的并发控制主要在 transactions , snapshots 和 cache几个位置

MONGODB中 基本行采用了行模式的方式进行数据的存储,而数据存储中就会牵扯到 mongodb 中的数据压缩

目前行的存储方面支持四种压缩方式

1 键值前缀压缩

2 字段压缩

3 霍夫曼数据编码压缩

4 块压缩

具体四种压缩方式,默认采用的是键值前缀压缩的方式。这主要是根据CPU 磁盘的消耗,压缩,以及算法的复杂度等因素考虑。

首先要确认的是,磁盘存储的数据与在内存中的数据一定是不一样的,要不怎么还有压缩一说。

1

文件系统缓存中的数据与磁盘上的格式相同,包括对数据文件进行任何压缩,MONGODB使用文件系统缓存来减少磁盘I/O。

2

WiredTiger内部缓存中加载的索引具有与磁盘格式不同的数据表示形式,但是仍然可以利用索引前缀压缩来减少RAM的使用。索引前缀压缩从索引字段中去除常见前缀。

3

WiredTiger内部缓存中的收集数据是未压缩的,并且使用与磁盘格式不同的表示形式。

关于压缩比率的问题,其实没有一个具体的固定的比率这和存储的数据是有关的,下面有一个图,这是 percona 的一个 PPT 中曾经提到的压缩的比率还是比较高的

所以在设计MONGODB 的时候,不能因为MONGODB 自带压缩功能 snappy,就可以随意的存储数据尤其是KEY 设计的不应该太长。因为在怎样你的数据在内存中是要打回原形的。

当然,面对mongodb 的 过期数据的 archive 还可以找一期来说说

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-11-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AustinDatabases 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
文件存储
文件存储(Cloud File Storage,CFS)为您提供安全可靠、可扩展的共享文件存储服务。文件存储可与腾讯云服务器、容器服务、批量计算等服务搭配使用,为多个计算节点提供容量和性能可弹性扩展的高性能共享存储。腾讯云文件存储的管理界面简单、易使用,可实现对现有应用的无缝集成;按实际用量付费,为您节约成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档