前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >独立表空间结构(2)之段---InnoDB表空间(二十八)

独立表空间结构(2)之段---InnoDB表空间(二十八)

作者头像
用户9919783
发布2022-07-26 12:27:22
3720
发布2022-07-26 12:27:22
举报
文章被收录于专栏:后端从入门到精通

上篇文章我们说了,表空间的区概念,我们都知道mysql的数据是存放在页里,一个页有16kb,而表空间能存放64TB的数据,为了提高查询效率,表空间里又吧页分为多个区,64个页也就是大概1M为一个区,而256个区为一组,每组的前几个页都是存储固定的结构数据。

独立表空间结构(1)之区---InnoDB表空间(二十七)

段(segment)的概念

为啥会突然出现区(extent)的概念呢?我们以前说的查询数据不都是直接查询b+树,b+树的节点就是数据页存放的数据,通过聚簇索引和二级索引查询。

是的,如果表里数据很少,可以直接这样查询,但如果表里数据越来越多呢?

我们以前查询的话也是通过fil_page_prev和fil_page_next连接成的页的双向链表,来查询我们需要的数据。

是的,理论上不引入区对数据查询影响不大,但我们不妨设想以下场景:当我们表里存放的数据越来越多,因为页是通过双向链表连接起来的,物理位子存储的距离可能会很远,这时候如果沿着双向链表扫描,就是所谓的 随机I/O。再次强调,磁盘的速度和内存的速度差好几个量级,所以这种情况就会导致查询非常慢。

所以,引入了区(extent)的概念。所以当表里存储的数据非常多的时候,并不是按照页为单位来分配数据的,而是按照区的单位来分配的,甚至当表里的数据非常多时,会吧数据分配在多个连续的区里,这样查询的时候会避免 随机I/O带来的性能损耗,虽然这样会浪费存储内存(区的内存可能会因为数据不够而没存储满,但比随机I/O查询性能更高)。

那么段又是什么呢?由上面的基础延伸,我们查询数据的时候,其实就是对b+树节点进行扫描,那如果吧叶子节点和非叶子节点都放在一起进行扫描,是不是就太多了。所以mysql设计者吧叶子节点和非叶子节点的区放在不同的内存,区别对待,而他们自己独有的区就称为段(segment),叶子节点有自己独有的段,非叶子节点也有自己独有的段。也就是说,不论是聚簇索引还是二级索引,一个索引都会生成两个段,一个是叶子节点段,一个是非叶子节点段。

问:

默认情况下,我们一个聚簇索引会生成段,一个叶子节点段,一个非叶子节点段而段是以区为单位进行存储的,一个区为1M,意味着存少量的数据会用2M内存吗?以后每次添加一条索引都要申请2M的内存?这简直就是天大的浪费。

这是因为我们现在介绍的区都是非常纯粹的,他都是完整的属于一个段,如果区的页内存没有用完,他的剩余页的内存也不可以存储其他段的数据。那么考虑到较小数据量存到区内页这种情况。Mysql设计者们提出了碎片区(fragment)区的概念。也就是在fragment中,不是所有的页都是为了存储同一个段的数据的,比如存了叶子节点段的数据,也可以存非叶子节点段的数据,不属于任何一个段,是只属于表空间结构管理的,他的策略是这样:

刚开始向表中插入数据,段是从某个碎片区以页面为单位来分配存储空间的。

当某个段已经占用了32个碎片区页面后,就会升级为完整的区来分配存储空间。

所以,由上可以知道,段是零散页面碎片区的集合以及完整区的集合,innoDB为了存储一些特殊的数据,除了叶子节点段和非叶子节点段外,还有许多额外的段,比如回滚段,这些后面会一一介绍。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-09-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 后端从入门到精通 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 段(segment)的概念
  • 问:
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档