场景

翎野君

发布于 2023-05-12 19:56:21

3700

文章被收录于专栏：翎野君翎野君

用户收藏信息的表结构设计

收藏记录表：维护用户和收藏信息之间的关系

字段名	数据类型	长度	主键	描述
id	varchar	36	Yes	UUID
user_id	varchar	32	No	用户Id
resource_id	bigint	20	No	收藏资源Id
resource_name	varchar	512	No	收藏资源名称
author	varchar	512	No	资源创作者
album	varchar	512	No	资源所属专辑
resource_type	varchar	10	No	收藏资源类型 1:歌曲 2:节目 3:广播

预期业务量可达百万用户。
平均每人收藏百首歌曲：一百万用户*每人收藏一百首歌=一亿条收藏信息。
根据使用场景分析，用户收藏属于频繁操作的场景，需要频繁的读和写数据库。
按照上面的表结构设计，单表存储上亿条记录，且面临着大量的读写操作。
要解决上面的这个问题，思考进行数据库分表。

分表

场景

数据库一般采用Master-Slave复制模式的MySQL架构，只能够对数据库的读进行扩展，而对数据库的写入操作还是集中在Master上，并且单个Master挂载的Slave也不可能无限制多，Slave的数量受到Master能力和负载的限制。

因此，需要对数据库的吞吐能力进行进一步的扩展，以满足高并发访问与海量数据存储的需要。

前提

很大的数据量
数据量随着[时间/业务规模/场景操作频繁次数]会持续高速增长

目的：

对于访问极为频繁且数据量巨大的单表来说，我们首先要做的就是减少单表的记录条数，以便减少数据查询所需要的时间，提高数据库的吞吐。
在分表之前，首先需要选择适当的分表策略，使得数据能够较为均衡地分不到多张表中，并且不影响正常的查询

分表策略

为了使数据能够较为均衡地分不到多张表中，并且不影响正常的查询，我们需要制定合适的分表策略。

收藏信息是和用户绑定在一起的，是用户的一种行为，无论收藏、取消收藏、及获取收藏信息都需要告知具体是哪个用户操作的。
对此可以利用用户ID制定分表策略，这样既不影响查询，又能够使数据较为均衡地分布到各个表中。
user_id是有自己的生成规则的，不是自增长生成的且不能保证以后会不会出现字母，直接取模的话，怕是不能达到均衡分表的目标。
对uid进行hash操作，后在进行取模操作

按百万用户划分、每张表存储一万个用户的收藏信息，即需要划分出来128张表。

分表策略：hash(user_id) % 128 = table_id
路由规则：table_name + table_id = collect_0…collect_127

如果业务场景会随着时间规律增长，可考虑使用按时间日期分表，如每天的员工的打卡记录，假设某公司有20W员工每人每天打卡两次，即：

一个月的打卡记录 = 20W*2*30 = 1200W 条记录
一年内的打卡记录 = 1200W*12 = 14400W 条记录

那么我们就可以考虑按照日期进行分表存储。如：work_record_20180620…work_record_20181231

哈希取模代码见下：

// 分表数量
private static final int SUB_TABLE_NUM = 128;
public static final int uidConvertSubNum(String uid) {
int h;
// 将不规则的uid转为'随机、无规则'的大数
int hashUid = (uid == null) ? 0 : (h = uid.hashCode()) ^ (h >>> 16);
// 将散列值与长度做与运算得到下标值，等同于取模运算
int subNum = hashUid & (SUB_TABLE_NUM - 1);
return subNum;
}

在分表前请注意！

对于取模得到表序号的路由算法，需要在编码时提前确认分表数量，即根据业务量推算出要分多少表，如128张表。
后期如果要改变分表数量（一般是扩容增表）这样的话，同一个uid算出来的表序号可能会不一致！

即uid为1230521，分表数为128时算出来的表序号为0，当分表数量增大为256时，算出来的表序号为7，这样在路由时就会出现找不到的情况。

如果出现这种情况的话，我们需要进行数据迁移，假如原有

扩容前/表序号	0	1	2
uid	0	1	2
uid	3	4	5
uid	6	7	8
uid	9	10	11

扩容后/表序号	0	1	2	3	4	5
uid	0	1	2	3	4	5
uid	6	7	8	9	10	11

即：3、4、5、9、10、11六个数字迁移到新的表当中去。
如果新增加一倍的表，那么需要将原有的每张表中的一半数据进行移动。
随着时间的增长，业务规模会不断的增大，到之后可能分表也会数据量很庞大，那么我们就会分更多的表，如果前期对于业务量和业务规模没有很好的预期的话，那么到后期就不可避免的要进行数据迁移。

需要解决的问题

主键冲突问题

分表之后，数据被分配到不同的表中（类似于分片），不能再借助数据库自增长特性直接生成，否则会造成不同分片上的数据表主键会重复。

通过给主键字段设置为自增序列显然不可取。
使用Mysql自带的UUID()函数，达到分表后主键不重复的效果。

分库

目的

分表的实质还是在一个数据库上进行的操作，很容易受数据库IO性能的限制。无法给数据库的并发处理能力带来质的提升。面对高并发的读写访问，当数据库master服务器无法承载写操作压力时，不管如何扩展slave服务器，此时都没有意义了。因此，我们必须换一种思路，对数据库进行拆分，从而提高数据库写入能力，这就是所谓的分库。