前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >mysql之mysql索引(六)

mysql之mysql索引(六)

原创
作者头像
翰墨飘香
修改2023-10-31 20:20:14
2580
修改2023-10-31 20:20:14
举报
文章被收录于专栏:翰墨飘香

https://blog.csdn.net/qq_27559331/article/details/99373734

https://zhuanlan.zhihu.com/p/342580205

https://zhuanlan.zhihu.com/p/515672456?utm_id=0

一、常见索引模型

https://zhuanlan.zhihu.com/p/621605230

https://www.cnblogs.com/muxianbai/p/15127751.html

1、hash

哈希表是一种以键 - 值(key-value)存储数据的结构,我们只要输入待查找的键即 key,就可以找到其对应的值即 Value。哈希的思路很简单,把值放在数组里,用一个哈希函数把 key 换算成一个确定的位置,然后把 value 放在数组的这个位置。

不可避免地,多个 key 值经过哈希函数的换算,会出现同一个值的情况。处理这种情况的一种方法是,拉出一个链表。

你可以设想下,如果你现在要找身份证号在ID_card_X, ID_card_Y这个区间的所有用户,就必须全部扫描一遍了。

所以,哈希表这种结构适用于只有等值查询的场景,比如 Memcached 及其他一些 NoSQL 引擎。

2、有序数组

而有序数组在等值查询和范围查询场景中的性能就都非常优秀。还是上面这个根据身份证号查名字的例子,如果我们使用有序数组来实现的话,示意图如下所示:

所以,有序数组索引只适用于静态存储引擎,比如你要保存的是 2017 年某个城市的所有人口信息,这类不会再修改的数据。

3、跳表

Redis中使用

4、搜索树

(1)二叉搜索树

二叉搜索树的特点是:父节点左子树所有结点的值小于父节点的值,右子树所有结点的值大于父节点的值。这样如果你要查 ID_card_n2 的话,按照图中的搜索顺序就是按照 UserA -> UserC -> UserF -> User2 这个路径得到。这个时间复杂度是 O(log(N))。

当然为了维持 O(log(N)) 的查询复杂度,你就需要保持这棵树是平衡二叉树。为了做这个保证,更新的时间复杂度也是 O(log(N))。树可以有二叉,也可以有多叉。多叉树就是每个节点有多个儿子,儿子之间的大小保证从左到右递增。二叉树是搜索效率最高的,但是实际上大多数的数据库存储却并不使用二叉树。其原因是,索引不止存在内存中,还要写到磁盘上。

你可以想象一下一棵 100 万节点的平衡二叉树,树高 20。一次查询可能需要访问 20 个数据块。在机械硬盘时代,从磁盘随机读一个数据块需要 10 ms 左右的寻址时间。也就是说,对于一个 100 万行的表,如果使用二叉树来存储,单独访问一个行可能需要 20 个 10 ms 的时间,这个查询可真够慢的。

为了让一个查询尽量少地读磁盘,就必须让查询过程访问尽量少的数据块。那么,我们就不应该使用二叉树,而是要使用“N 叉”树。这里,“N 叉”树中的“N”取决于数据块的大小。

(2)红黑树

(3)B树

B树木和B+树的区别

https://blog.csdn.net/ChaoticNg/article/details/114588507

(4)B+树

B+树是对B树的一种变形树,它与B树的差异在于:

  • 有k个子结点的结点必然有k个关键码;
  • 非叶结点仅具有索引作用,跟记录有关的信息均存放在叶结点中。
  • 树的所有叶结点构成一个有序链表,可以按照关键码排序的次序遍历全部记录

为了让一个查询尽量少地读磁盘,就必须让查询过程访问尽量少的数据块。那么,我们就不应该使用二叉树,而是要使用“N 叉”树。这里,“N 叉”树中的“N”取决于数据块的大小。

以 InnoDB 的一个整数字段索引为例,这个 N 差不多是 1200。这棵树高是 4 的时候,就可以存 1200 的 3 次方个值,这已经 17 亿了。考虑到树根的数据块总是在内存中的,一个 10 亿行的表上一个整数字段的索引,查找一个值最多只需要访问 3 次磁盘。其实,树的第二层也有很大概率在内存中,那么访问磁盘的平均次数就更少了。

(5)LSM树

二、InnoDB的索引模型

在InnoDB中,表都是根据主键顺序以索引的形式存放的,这种存储方式的表称为索引组织表。

InnoDB使用了B+树索引模型,每一个索引在InnoDB里面对应一棵B+树。

聚簇索引的叶子结点上存放的是完整的每行数据记录,普通索引的叶子结点上包含该行的主键列,以及为二级索引指定的列

至于为什么使用B+树,请参考

https://www.cnblogs.com/muxianbai/p/15127751.html

InnoDB为什么采用B+树作为索引模型

假设,我们有一个主键列为 ID 的表,表中有字段 k,并且在 k 上有索引。这个表的建表语句是:

create table T(id int primary key, k int not null,name varchar(16),index (k))engine=InnoDB;

从图中不难看出,根据叶子节点的内容,索引类型分为主键索引和非主键索引。

在 InnoDB 里,非主键索引也被称为二级索引(secondary index)。根据上面的索引结构说明,讨

三、索引分类

https://dev.mysql.com/doc/refman/5.7/en/innodb-indexes.html

主键索引/聚簇索引(clustered index)

聚簇索引并不是一种单独的索引类型,而是一种数据存储方式(所有的用户记录都存储在了叶子节点),也就是所谓的索引即数据,数据即索引。

聚簇索引的叶子结点上存放的是完整的每行数据记录

通过聚簇索引访问行很快,因为索引搜索直接指向包含行数据的页面。 如果表很大,与使用索引记录的不同页面存储行数据的存储组织相比,聚集索引架构通常可以节省磁盘 I/O 操作

非主键索引/普通索引/二级索引(secondary index)

聚簇索引以外的索引称为二级索引。 在 InnoDB 中,二级索引中的每条记录都包含该行的主键列,以及为二级索引指定的列。 InnoDB 使用这个主键值来搜索聚集索引中的行。

讨论一个问题:基于主键索引和普通索引的查询有什么区别?

如果语句是 select * from T where ID=500,即主键查询方式,则只需要搜索 ID 这棵 B+ 树;

如果语句是 select * from T where k=5,即普通索引查询方式,则需要先搜索 k 索引树,得到 ID 的值为 500,再到 ID 索引树搜索一次。这个过程称为回表

也就是说,基于非主键索引的查询需要多扫描一棵索引树。因此,我们在应用中应该尽量使用主键查询。

唯一索引(Unique Index)

联合索引 (Multiple-Column Indexes)

前缀索引

全文索引(Full-Text Indexes)

四、索引维护

五、覆盖索引

如果执行的语句是select 主键 from T where key = 3,这时只需要查主键的值,而主键的值已经在key索引树上了,因此可以直接提供查询结果,不需要回表。也就是说,在这个查询里面,索引key已经“覆盖了”我们的查询需求,我们称为覆盖索引。

由于覆盖索引可以减少树的搜索次数,显著提升查询性能,所以使用覆盖索引是一个常用的性能优化手段。

六、回表

七、最左前缀原则

在建立联合索引的时候,如何安排索引内的字段顺序?

因为可以支持最左前缀,所以当已经有了(a,b)这个联合索引后,一般就不需要单独在a上建立索引了。因此,第一原则是,如果通过调整顺序,可以少维护一个索引,那么这个顺序往往就是需要优先考虑采用的。

八、索引下推(Index Condition Pushdown,简称ICP)

一种mysql根据查询的优化方式,即将mysql过滤从服务层到引擎层

Before:根据索引查询记录,然后根据Where来过滤记录

After:Mysql数据库在取出索引的同时,判断是否可以进行Where条件过滤,也就是将Where的部分过滤操作放到了存储引擎层。

https://baijiahao.baidu.com/s?id=1716515482593299829&wfr=spider&for=pc

不符合最左前缀的部分,会怎么样呢?

以市民表的联合索引(name, age)为例。如果现在有一个需求:检索出表中“名字第一个字是张,而且年龄是10岁的所有男孩”。那么,SQL语句是这么写的:

select * from tuser where name like '张%' and age=10 and ismale=1;

在MySQL 5.6之前,只能从name为“张”开头的记录的ID开始一个个回表。到主键索引上找出数据行,再对比字段值。

而MySQL 5.6 引入的索引下推优化(index condition pushdown), 可以在索引遍历过程中,对索引中包含的字段先做判断,直接过滤掉不满足条件的记录,减少回表次数。InnoDB在(name,age)索引内部就判断了age是否等于10,对于不等于10的记录,直接判断并跳过。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、常见索引模型
  • 二、InnoDB的索引模型
  • 三、索引分类
    • 主键索引/聚簇索引(clustered index)
      • 非主键索引/普通索引/二级索引(secondary index)
        • 唯一索引(Unique Index)
          • 联合索引 (Multiple-Column Indexes)
            • 前缀索引
              • 全文索引(Full-Text Indexes)
              • 四、索引维护
              • 五、覆盖索引
              • 六、回表
              • 七、最左前缀原则
              • 八、索引下推(Index Condition Pushdown,简称ICP)
              相关产品与服务
              云数据库 MySQL
              腾讯云数据库 MySQL(TencentDB for MySQL)为用户提供安全可靠,性能卓越、易于维护的企业级云数据库服务。其具备6大企业级特性,包括企业级定制内核、企业级高可用、企业级高可靠、企业级安全、企业级扩展以及企业级智能运维。通过使用腾讯云数据库 MySQL,可实现分钟级别的数据库部署、弹性扩展以及全自动化的运维管理,不仅经济实惠,而且稳定可靠,易于运维。
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档