前几天在网上看了一个帖子,描述的现象是在MySQL中,对in,or,union all的性能的比对,看完之后,我就产生了疑问。
文章的大意是说,使用in,or的查询效率较低,大概查询需要花费11秒,而使用了union all的方式之后,性能提高到了0.02秒。
如果单纯说是MySQL半连接的优化器性能问题,我信,但是看了文中提供的SQL语句,我感觉至少从我使用MySQL 5.7的感觉来看,这个差别会很小,或者说没有差别。
当然有这个想法,自己也得论证不是。我就尝试了两次,文中说数据量大概是20万记录,那我就扩大一下,做一下100万数据的测试,看看效果。
创建表article,
create table article(id int primary key ,article_category int);
使用如下的方式初始化数据。
delimiter $$ drop procedure if exists proc_auto_insertdata$$ create procedure proc_auto_insertdata() begin declare init_data integer default 1; while init_data<=1000000 do insert into article values(init_data,1); insert into article values(init_data+1,2); insert into article values(init_data+2,3); insert into article values(init_data+3,4); insert into article values(init_data+4,5); set init_data=init_data+5; end while; end$$ delimiter ;
插入数据,这个部分,我启用了显式事务,效果很明显。在本机测试100万的数据量大概是21秒钟即可完成。
继续运行上面的语句,性能还不错,基本都在1秒钟(当然数据是在缓存里面),三种方式的性能有差异,但是远没有稳中说得那么大了。
是不是数据量还不够呢,我们继续做一个测试,把初始化数据库修改为1000万,再来看看效果。
我们继续做一个优化改进,创建一个索引出来。数据量扩大10倍,为1000万。
alter table article add key (article_category,id);
再来看看效果发现上面的3个语句的执行效率相仿。
通过上的测试,充分说明了在MySQL 5.7的测试中,这个问题严格来说不是问题,可能是版本有关,还有一个是使用了更多的数据,性能却明显好许多。这个可能和表结构有一些出入。
总之,我们得到一个初步的结论,很可能自己测试的时候却没有,需要理性看待。以免得到错误的结论。