首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

千万数据,你是怎么查询的?

一.前言 面试官: 来说说,一千万数据,你是怎么查询的? B哥:直接分页查询,使用limit分页。 面试官:有实操过吗?...B哥:肯定有呀 此刻献上一首《凉凉》 也许有些人没遇过上千万数据量的表,也不清楚查询千万数据量的时候会发生什么。...今天就来带大家实操一下,这次是基于MySQL 5.7.26做测试 二.准备数据 没有一千万数据怎么办? 创建呗 代码创建一千万?那是不可能的,太慢了,可能真的要跑一天。...三次查询时间分别为: 14060 ms 13755 ms 13447 ms 普通分页查询 MySQL 支持 LIMIT 语句来选取指定的条数数据, Oracle 可以使用 ROWNUM 来选取。...,我们分别着手优化 优化偏移量大问题 采用子查询方式 我们可以先定位偏移位置的 id,然后再查询数据 SELECT * FROM `user_operation_log` LIMIT 1000000,

65120

mysql慢查询优化-千万数据

mysql 表数据达到百万甚至千万时,如何优化?...最近在忙其他项目,偶然发现之前的项目中,有个定时刷新告警信息的模块查询比较慢,简单的一个关联查询,尽然耗了20多秒才能出来, 才发现表的数据量已经达到了700万,我擦,我这暴脾气,不知道我强迫症吗,于是下定决心...1个小时解决了丫的 (—_— 后来,用时之久啊,人都消瘦了许多) 首先思路是,这么大数据查询当然必须添加索引了,看以下介绍: 1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order...,SQL是根据表中数据来进行查询优化的,当索引列有大量数据重复时,SQL查询可能不会去利用索引, 如一表中有字段sex,male、female几乎各一半,那么即使在sex上建了索引也对查询效率起不了作用...handler_read_rnd_next:这个值越高,说明查询低效 案例分析 一张告警信息表,数据量为620万 查询数量,用时1s image.png 添加内连接,用时5s (device表700

1.7K30
您找到你想要的搜索结果了吗?
是的
没有找到

面试官:千万数据,怎么快速查询

你好,我是田哥 先来看一个面试场景: 面试官:来说说,一千万数据,你是怎么查询的? 小哥哥:直接分页查询,使用limit分页。 面试官:有实操过吗?...小哥哥:肯定有呀 也许有些朋友根本就没遇过上千万数据量的表,也不清楚查询千万数据量的时候会发生什么。...今天就来带大家实操一下,这次是基于MySQL 5.7.26版本做测试 准备数据 没有一千万数据怎么办? 创建呗 代码创建一千万?那是不可能的,太慢了,可能真的要跑一天。...三次查询时间分别为: 14060 ms 13755 ms 13447 ms 普通分页查询 MySQL 支持 LIMIT 语句来选取指定的条数数据, Oracle 可以使用 ROWNUM 来选取。...,我们分别着手优化 优化偏移量大问题 采用子查询方式 我们可以先定位偏移位置的 id,然后再查询数据 SELECT * FROM `user_operation_log` LIMIT 1000000,

50920

千万数据查询:CK和ES选哪个?

前言 在开发中遇到一个业务诉求,需要在千万量级的底池数据中筛选出不超过 10W 的数据,并根据配置的权重规则进行排序、打散(如同一个类目下的商品数据不能连续出现 3 次)。...对“千万量级数据查询 10W 量级的数据”设计了如下方案: 多线程+CK 翻页方案 ES scroll scan 深翻页方案 ES+Hbase 组合方案 RediSearch+RedisJSON 组合方案...初版设计方案 整体方案设计为: 先根据配置的「筛选规则」,从底池表中筛选出「目标数据」 在根据配置的「排序规则」,对「目标数据」进行排序,得到「结果数据」 技术方案如下: ①每天运行导数任务,把现有的千万量级的底池数据...如上测试数据,可以发现,以十万,百万,千万量级的底池为例: 底池量级越大,查询相同的数据量,耗时越大 查询结果 3W 以下时,ES 性能优;查询结果 5W 以上时,CK 多线程性能优 ES+Hbase...如下图所示,使用 ES 查询方案,对查询同样条数的场景(从千万级底池中筛选出 7W+ 条数据),获取的每条记录的字段个数从 32 缩减到 17,再缩减到 1个(其实是两个字段,一个是商品唯一标识 sku_id

1.5K20

千万数据深分页查询SQL性能优化实践

Tech 导读 分页查询数据库中是一种很常见的应用场景,一般都可以使用limit语句快速实现。但是随着表数据的增长,limit查询性能也会越来越慢。...但是最近接到了一个新需求,要求提供查询关注对象的粉丝列表接口功能。该功能的难点就是关注对象的粉丝数量过多,不少店铺的粉丝数量都是千万级别,并且有些大V粉丝数量能够达到上亿级别。...< #{lastId} order by id desc limit 10; 方案优点:避免了数据量变大时,页码查询深入的性能下降问题;经过接口压测,千万数据量时,前 N-1页查询耗时可以控制在几十毫秒内...方案优点:避免了数据量变大时,页码查询深入的性能下降问题;经过接口压测,千万数据量时,从第一页到最后一页都控制在几十毫秒内。...,一步步从最简单的limit分页实现,到最后满足千万级表数据的分页查询探索实现,并介绍每种技术方案的优缺点,希望可以帮助读者去选择适合自己的技术方案。

47830

千万数据查询:CK、ES、RediSearch怎么选?

对“千万量级数据查询 10W 量级的数据”设计了如下方案: 多线程+CK 翻页方案 ES scroll scan 深翻页方案 ES+Hbase 组合方案 RediSearch+RedisJSON 组合方案...,对「目标数据」进行排序,得到「结果数据」 技术方案如下: ① 每天运行导数任务,把现有的千万量级的底池数据(Hive 表)导入到 Clickhouse 中,后续使用 CK 表进行数据筛选。...如上测试数据,可以发现,以十万,百万,千万量级的底池为例: 底池量级越大,查询相同的数据量,耗时越大 查询结果 3W 以下时,ES 性能优;查询结果 5W 以上时,CK 多线程性能优 ES+Hbase...如下图所示,使用 ES 查询方案,对查询同样条数的场景(从千万级底池中筛选出 7W+ 条数据),获取的每条记录的字段个数从 32 缩减到 17,再缩减到 1个(其实是两个字段,一个是商品唯一标识 sku_id...总结 本文从一个业务诉求触发,对“千万量级数据查询 10W 量级的数据”介绍了不同的设计方案。

90721

MySQL-字节千万数据分页查询优化方案

NOT NULL comment `学生姓名`, primary KEY (`id`), KEY idx_className(`className`) USING BTREE ) 插入一千万数据到表中...,保证className相同的数据至少有100万条。...2、直接查询 直接分页查询耗时70s: select * from test where class_name = "班级一" limit 900000,10; 看mysql执行计划,的确用到了索引,但是查询耗时长达...一般分页查询有两种做法: 1、先查询出90万+10条记录的id,回表查询数据,再将90万+10条完整记录发给MySQL以便筛选最后10条; 2、先查询出90万+10条记录的id,筛选出最后10条记录的id...3.2、利用上一次的最大id筛选数据 //上图的最大id是 998507,查询时让id > 998507,再直接limit 10就可以得到第91万页了 select * from test where

20910

面试官:一千万数据,怎么快速查询

前言 面试官:来说说,一千万数据,你是怎么查询的? B哥:直接分页查询,使用limit分页。 面试官:有实操过吗?...B哥:肯定有呀 此刻献上一首《凉凉》 也许有些人没遇过上千万数据量的表,也不清楚查询千万数据量的时候会发生什么。...今天就来带大家实操一下,这次是基于MySQL 5.7.26做测试 准备数据 没有一千万数据怎么办? 创建呗 代码创建一千万?那是不可能的,太慢了,可能真的要跑一天。...三次查询时间分别为: 14060 ms 13755 ms 13447 ms 普通分页查询 MySQL 支持 LIMIT 语句来选取指定的条数数据, Oracle 可以使用 ROWNUM 来选取。...,我们分别着手优化 优化偏移量大问题 采用子查询方式 我们可以先定位偏移位置的 id,然后再查询数据 SELECT * FROM `user_operation_log` LIMIT 1000000,

3.6K20

Mysql面试题及千万数据查询优化

看见了吗,查了100条数据用了7.063s。这能算的上是快速查询吗,估计没人能接受了这种速度吧!基于这个问题,我今天就要说说大数据时的快速查询了。 ?...对大数据量limit分页性能优化 说到查询优化,我们首先想到的肯定是使用索引。利用了索引查询的语句中如果条件只包含了那个索引列,那在这种情况下查询速度就很快了。...因为利用索引查找有相应的优化算法,且数据就在查询索引上面,不用再去找相关的数据地址了,这样节省了很多时间。另外Mysql中也有相关的索引缓存,在并发高的时候利用缓存就效果更好了。...但个人建议最好使用join,尽量减少子查询的使用。 注:目前是千万级别查询,如果将至百万级别,速度会更快,我有亲自测试一下语句,查询时间0.410s。...13,千万不要 ORDER BY RAND()

1.1K10

30个MySQL千万级大数据查询优化技巧

本文总结了30个mysql千万级大数据SQL查询优化技巧,特别适合大数据技术学习者。 对查询进行优化,应尽量避免全表扫描,首先应考虑在where及orderby涉及的列上建立索引。...,SQL是根据表中数据来进行查询优化的,当索引列有大量数据重复时,SQL查询可能不会去利用索引,如一表中有字段sex,male、female几乎各一半,那么即使在sex上建了索引也对查询效率起不了作用。...16.应尽可能的避免更新clustered索引数据列,因为clustered索引数据列的顺序就是表记录的物理存储顺序,一旦该列值改变将导致整个表记录的顺序的调整,会耗费相当大的资源。...对小型数据集使用FAST_FORWARD游标通常要优于其他逐行处理方法,尤其是在必须引用几个表才能获得所需的数据时。在结果集中包括“合计”的例程通常要比使用游标执行的速度快。...30.尽量避免向客户端返回大数据量,若数据量过大,应该考虑相应需求是否合理。   如果你的程序都能满足这30条的话那么你的程序执行效率会有很大的提高.

1.6K21

Mysql面试题及千万数据查询优化

看见了吗,查了100条数据用了7.063s。这能算的上是快速查询吗,估计没人能接受了这种速度吧!基于这个问题,我今天就要说说大数据时的快速查询了。 ?...对大数据量limit分页性能优化 说到查询优化,我们首先想到的肯定是使用索引。利用了索引查询的语句中如果条件只包含了那个索引列,那在这种情况下查询速度就很快了。...因为利用索引查找有相应的优化算法,且数据就在查询索引上面,不用再去找相关的数据地址了,这样节省了很多时间。另外Mysql中也有相关的索引缓存,在并发高的时候利用缓存就效果更好了。...但个人建议最好使用join,尽量减少子查询的使用。 注:目前是千万级别查询,如果将至百万级别,速度会更快,我有亲自测试一下语句,查询时间0.410s。...13,千万不要 ORDER BY RAND() 接下来会继续总结一些面试中的问题共享给大家,如果觉得内容不错请关注此公众号,我会不定期的推送一些干货给大家。

1.3K20

mysql千万级分页查询SQL优化

拿订单列表查询举例,可以使用用户表里的某个特殊字段进行筛选,如性别等,这些字段肯定不会在订单表存储,所以必然会进行联表。 使用者常常有疑问: 为何页面只有 10 条数据查询却如此之慢?...查询 10 条数据都要 1 分钟以上的时间?...(优化前页面需要转 1 分钟才可显示出数据,页面转圈圈~) 这个功能对应的是后台的一个千万级别的大表,未分库分表,目前的数据量为13755695,分页查询使用到了limit,优化之前的查询耗时30 s,...现在在查询中我们固定使用1,2进行查询,那么此方法也会失效,因为你根据条件筛选出最大的id后,后面10个数据,不一定都是你想要的,可能包含data_type=3的数据。...3.最终优化: 列表数据查询 130ms,分页插件查询 (count 查询)150ms,目前数据单表数据量级在 2000 万左右,以次时间效率推断,多查询条件的复杂分页查询,可以支持单表几亿没有问题。

1.2K20

30个MySQL千万级大数据SQL查询优化技巧详解

本文总结了30个mysql千万级大数据SQL查询优化技巧,特别适合大 ? 数据里的MYSQL使用。...,SQL是根据表中数据来进行查询优化的,当索引列有大量数据重复时,SQL查询可能不会去利用索引,如一表中有字段sex,male、female几乎各一半,那么即使在sex上建了索引也对查询效率起不了作用。...应尽可能的避免更新 clustered 索引数据列,因为 clustered 索引数据列的顺序就是表记录的物理存储顺序,一旦该列值改变将导致整个表记录的顺序的调整,会耗费相当大的资源。...对小型数据集使用 FAST_FORWARD 游标通常要优于其他逐行处理方法,尤其是在必须引用几个表才能获得所需的数据时。在结果集中包括“合计”的例程通常要比使用游标执行的速度快。...30.尽量避免向客户端返回大数据量,若数据量过大,应该考虑相应需求是否合理。 如果你的程序都能满足这30条的话那么你的程序执行效率会有很大的提高 请关注微信公众号:程序你好

5.5K30

MySQL(六)|《千万级大数据查询优化》第二篇:查询性能优化(2)

在上一篇文章MySQL(五)|《千万级大数据查询优化》第二篇:查询性能优化(1)中讲到一条SQL的查询执行路径如下图5-1所示: 图5-1 步骤如下: 客户端发送一条查询给服务器。...1、通信协议 MySQL客户端和服务端之间的通信协议是“半双工”的,也就是说在任何一个时刻,那么是由服务端向客户端发送数据,要么是由客户端向服务端发送数据,这两个动作不能同时发生。...所以在前一章节的时候我们强烈在分页时一定要使用LIMIT限制MySQL只返回需要的数据的原因。 2、查询状态 每一个MySQL查询,任何时间都会有一个状态,该状态表示了MySQL当前正在做什么。...3、查询缓存 当缓存中有需要查询数据时,会直接从缓存中拿到结果并返回给客户端,不会生成执行计划,SQL也不会被执行。关于缓存更多的内容以后再讲。...4、查询优化处理 任何缓存中没有需要的数据,下一步就是服务器端进行SQL解析、预处理,再由优化器生成对应的执行计划。

939100

MySQL(五)|《千万级大数据查询优化》第二篇:查询性能优化(1)

一、首选要优化数据访问 查询性能底下最基本的原因是访问的数据太多。所以,对于低效的查询,一般通过两个步骤来分析: 确认应用程序是否在检索大量超过需要的数据。...这里主要考虑提高扫描的方式,即查询数据的方式。 查询数据的方式有全表扫描、索引扫描、范围扫描、唯一索引查询、常数引用等。这些查询方式,速度从慢到快,扫描的行数也是从多到少。...可以通过EXPLAIN语句中的type列反应查询采用的是哪种方式。 通常可以通过添加合适的索引改善查询数据的方式,使其尽可能减少扫描的数据行,加快查询速度。...二、重构查询的方法 设计查询的时候需要考虑是否需要把一个复杂的查询分成多个简单的查询。在我的印象中,曾经无数次听到一个经验法则:可以在数据库中做的事不要放在应用程序中,数据库比我们想象的要厉害的多。...在应用层做关联查询,意味着对于某条记录应用只需要查询一次,而在数据库中做关联查询,则可能需要重复地访问一部分数据。从这点看,这样的重构还可能会减少网络和内存的消耗。

1.7K91

千万数据库使用索引查询速度更慢的疑惑-数据回表问题

环境 数据库:TiDB数据库(和mysql数据库极其相似的数据库) 表名:index_basedata 表数据:13 000 000条数据 表索引:包含一个普通索引,索引列...对于sql1和sql2,本应该使用所以的查询时间少,但是使用了索引的sql1使用的时间是没有使用索引的sql2查询时间的5倍,为什么?...对于sql3和sql4,恢复了正常,使用索引比不使用索引查询速度快,为什么上述两个现象会相差如此之大?...但是在group by时在sql1中,使用索引得到的地址,需要回表才可以得到真实的数据,需要根据地址去获取数据数据回表问题严重。...所以说,发生严重的回表的时候,查询速度比不使用索引还慢。 那么,下面的5个sql执行时间能不能理解呢?

1.6K20
领券