我为列名和表名的模棱两可道歉。我的数据库有两个表A和B。这两个表之间是多对多关系。
表A大约有200条记录
Table A structure
Id. Definition
12 Def1
42 Def2 .... etc.
表B有大约50亿条记录
Column 1 . Associated Id(from table A)
eg . abc 12
abc 21
pqr 42
我正在尝试优化数据存储在表B中的方式,因为它有很多冗余数据。我考虑的结构如下所示
Column 1 Associated Ids
abc 12, 21
pqr 42
当新行添加到表A中时,“关联Id”列可以有更新。
在这种情况下,这是一个很好的结构吗?如果是,那么“关联Id”的列类型应该是什么?我正在使用mysql数据库。
创建table语句。
CREATE TABLE `A` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`title` varchar(100) DEFAULT NULL,
`name` varchar(100) DEFAULT NULL,
`creat_usr_id` varchar(20) NOT NULL,
`creat_ts` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
`modfd_usr_id` varchar(20) DEFAULT NULL,
`modfd_ts` timestamp NULL DEFAULT NULL ON UPDATE CURRENT_TIMESTAMP,
PRIMARY KEY (`id`),
UNIQUE KEY `A_ak1` (`name`)
) ENGINE=InnoDB AUTO_INCREMENT=277 DEFAULT CHARSET=utf8;
CREATE TABLE `B`(
`col1` varchar(128) NOT NULL,
`id` int(11) NOT NULL,
`added_dt` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP,
`creat_usr_id` varchar(20) NOT NULL,
`creat_ts` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP,
PRIMARY KEY (`col1`,`id`,`added_dt`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8
/*!50100 PARTITION BY RANGE (UNIX_TIMESTAMP(added_dt))
(PARTITION Lessthan_2016 VALUES LESS THAN (1451606400) ENGINE = InnoDB,
PARTITION L`Ω`essthan_201603 VALUES LESS THAN (1456790400) ENGINE = InnoDB,
PARTITION Lessthan_201605 VALUES LESS THAN (1462060800) ENGINE = InnoDB,
PARTITION Lessthan_201607 VALUES LESS THAN (1467331200) ENGINE = InnoDB,
PARTITION Lessthan_201609 VALUES LESS THAN (1472688000) ENGINE = InnoDB,
PARTITION Lessthan_201611 VALUES LESS THAN (1477958400) ENGINE = InnoDB,
PARTITION Lessthan_201701 VALUES LESS THAN (1483228800) ENGINE = InnoDB,
PARTITION pfuture VALUES LESS THAN MAXVALUE ENGINE = InnoDB) */;
索引。
Table Non_unique Key_name Seq_in_index Column_name Collation Cardinality Sub_part Packed Index_type Comment Index_comment
B 0 PRIMARY 1 col1 A
2 NULL NULL BTREE
B 0 PRIMARY 2 id A
6 NULL NULL BTREE
B 0 PRIMARY 3 added_dt A
6 NULL NULL BTREE
发布于 2018-06-05 07:04:48
这里有50亿行。让我来看看下面的内容:
col1
varchar(128)不为空,此列多长时间重复一次?也就是说,值得‘正常化’吗?
id
int(11) NOT NULL,将此列的大小减半(4字节-> 2),因为您只有200个不同的in:
a_id SMALLINT UNSIGNED NOT NULL
取值范围: 0..65535
added_dt
时间戳不为空默认CURRENT_TIMESTAMP,请解释为什么这是PK的一部分。这是一件相当奇怪的事情。
creat_usr_id
varchar(20) NOT NULL,creat_ts
timestamp NOT NULL默认CURRENT_TIMESTAMP,除非你能证明以这种方式跟踪50亿次活动是合理的,否则就把它们当作杂物扔掉吧。
added_dt
)
col1
、id
、id
我敢打赌,你最终会在同一秒内得到两行。主键是“唯一的”。也许你只需要(col
,a_id)`?否则,您将允许多次添加col-a_id对。或者,您可能希望IODKU添加新行,而不是更新时间戳?
如果(可能只有当)你想要删除‘旧的’行,这是很有用的。否则,请解释为什么选择分区。
在不查看主SELECTs
的情况下,很难审查模式。在大型表的情况下,我们还应该检查INSERTs
、UPDATEs
和DELETEs
,因为它们中的每一个都可能造成严重的性能问题。
如果每秒插入100行,则需要一年多的时间才能添加5B行。这些行将以多快的速度进入?这也可能是一个重要的性能问题。
https://stackoverflow.com/questions/50688457
复制相似问题