首页
学习
活动
专区
工具
TVP
发布

数据库表分区是怎么回事?

数据库表分区是怎么回事?

大家好,这一期呢,我们来说一下,数据库表索引的分区。讲解这个问题,对于不同的数据库可能有一些技术细节上的不同,因此我们以某个数据库比如sql server为例来探讨这个问题。

分区后的数据和索引分散到多个文件组里面,因此可以说这些数据是平行并列分布的,每组中的行都对应特定的那个分区。这些索引和表的分区都必须存在一个数据库里面。因此,在外部程序看来,不管内部有多少个分区,在外面看来就是一个数据表或者索引

那么表或者索引的分区有什么好处呢?好处主要是两个方面,一个是管理起来比较容易,另一个方面是性能上更好一些。

相较于访问整表而言,访问某个分区的数据当然更快更有效率

我们设想一下有这么一个案例,有一个表它有多个分区,这些分区对应的都是不同的文件组,而这些文件组呢又会分散到不同的硬盘上。

如果我们在排序的时候,一个硬盘一个硬盘的去访问的话,性能上就会很低

改善性能的话,我们可以使用RAID对分散到多个硬盘上的数据文件,同时进行访问。

再来说一下数据加锁的情况。在有多个分区的情况下,我们只需要对某个分区进行加锁,而不需要对整张表进行加锁,这样也可以提高操作的效率。这要在创建表的时候,修改表的属性,把lock_escalation这个选项设置为Auto

下面是数据分区的几个重要概念。

首先是分区函数。分区函数用来定义如何进行分区。首先它定义了我们需要分多少个区。这些区的边界在哪里。打个比方说, 一张用户表中包含了用户的注册时间,注册地域等等信息。那我们可以以时间为参考创建分区。可以以月为单位或者以年为单位进行分区,这主要取决于你到底有多大的数据量。在这种情况下,时间,也就是某个月的起始与终止,或者某个年的起始与终止,作为数据边界的参考。

其次是分区列。分区列会被上面的分区函数拿来用作进行表和索引的分区。这个列必须被明确的标注为persisted。理论上讲所有可以用作索引定义的列都可以当做分区列

再次就是对应的索引。索引和原始表的分区函数,必须满足如下条件,分区函数的参数必须具有相同的数据类型他们必须具有相同数量的分区,他们必须具有相同的数据边界

通俗的讲,数据进行了分区,索引的分区必须跟数据的分区进行对应,这样才可以提高效率

簇索引进行分区。当簇索引的键值并非唯一的时候,簇索引的键值并不需要指定包含分区列,在这种情况下,sql server 会缺省的把分区列添加到簇索引的键值中。如果簇索引的键值是唯一的,你必须显性的指定簇索引的键值包含分区列

对非簇索引进行分区。当对于一个键值唯一的非簇索引进行分区时索引键值必须包含分区列当索引值不唯一时,数据库会缺省的让索引键值包含分区列

接下来说一下非对应索引的情况。这种索引主要是独立于相关的数据表之外。主要是两种情况,一是这种索引有独立的分区定义,二是这种索引被放置在一个单独的文件组中。这种索引在如下情况下非常有用:

.数据源表没有分区

.索引键是唯一的,并且不包含分区列

. 你会在数据源表上进行非常复杂的多表联合操作

性能的考量上。并不是说分区越多,性能就越好。这些分区都会影响到内存的消耗,CPU的繁忙程度。所以你在使用分区的时候,要找到你的平衡点

具体的参数参考可以查找对应数据库的开发文档

以上是我对这个话题一点心得看法。仅供参考,欢迎讨论, 欢迎拍砖。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190825A0AEPP00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券