MySQL大数据量分页查询方法及其优化_随笔

使用子查询优化大数据量分页查询

这种方式的做法是先定位偏移位置的id，然后再往后查询，适用于id递增的情况。

使用id限定优化大数据量分页查询

使用这种方式需要先假设数据表的id是连续递增的，我们根据查询的页数和查询的记录数可以算出查询的id的范围，可以使用 id between and 来查询：

当然了，也可以使用in的方式来进行查询，这种方式经常用在多表关联的情况下，使用其他表查询的id集合来进行查询：

但是使用这种in查询方式的时候要注意的是，某些MySQL版本并不支持在in子句中使用limit子句。

参考 sql优化之大数据量分页查询（mysql） - yanggb - 博客园 (cnblogs.com)

众所周知， MySQL的驱动表与被驱动表是优化器自动优化选择的结果（与表连接的前后顺序等无关），我们可以用explain执行计划来知晓：

如上所示，前面一行t1是驱动表，后面一行t2是被驱动表。那么驱动表与被驱动表的选择是否有规律可循呢？下面是百度搜索两个主流的博文对驱动表与被驱动表的阐释：

1. MySQL连接查询驱动表被驱动表以及性能优化 - 阿伟~ - 博客园博文A 主要结论：

2. mysql驱动表与被驱动表及join优化_java小小小黑的博客-CSDN博客_mysql驱动表和被驱动表博文B 其主要结论：

两个帖子的结论是都差不多，而且还给出了例子来佐证。那么网上的结论是否权威？是否有普遍性？是否存在缺陷？

让我们来一起打破砂锅问到底。下面有两张表结构一模一样的表t1,t2：其中t1 100条数据，t2 1000条数据；t1（t2）结构如下：

按照上面博文的结论，left join左边是t2表，应该是驱动表。我们查看下结果：

与博文B 中观点1相违背（同理观点2也违背），与实际不符，但究竟这是为什么呢？

下面发一张MySQL的执行过程（来源于《MySQL实战45讲》中01讲【一条SQL查询语句是如何执行的】）

so die si ne，原来sql执行的过程是这样呀。等等，不对，这跟刚才SQL又有什么关系，上面left join中t2表还是左边的呀。

我们知道MySQL高版本的性能越来越好，它是不断进行优化迭代的。远古的mysql版本可能还需要人工把小表放在前面，大表放在后面等这些需要人工调优的经验早就已经被解决了。也就是说我们写的语句，MySQL为了追求更好的效率，它在执行器执行前已经帮我们优化了。那么实际优化后的sql如何查看呢？用show warning命令：

其中Message就是优化后实际执行的sql语句，格式化后如下：

优化后left join左连接变成了内连接(inner) join。所以用优化后的sql看，表t1是小表所以作为驱动表，与实际结果相符。

left join 竟然优化成了join,太神奇了，但这是为什么呢？原因在于mysql中null与任何值做等值或者不等值比较的时候都是null，即使是select null=null 也是null。这样where 条件t1.a=t2.a查询条件不会包含t2.a为NULL的行，实际效果其实跟join一样，被优化器智能的优化了。

我们直接看执行计划看实际结果吧：

结果显示t2是驱动表，t1是被驱动表。t2是1000条数据按理说是大表应该是被驱动表，与博文A ，博文B 的结论又不一致了。

《MySQL实战45讲》中34讲【到底可不可以使用join】已经讲的很透彻了，很深入了，我就不在这里献丑了。啰嗦几句大概就是驱动表是全表扫描不走索引，所以选被驱动表t1可以走索引，不会全表扫描，减少IO次数，性能高。里面对大表小表的总结，简直是精髓，特意在此再次着重强调：

在决定哪个表做驱动表的时候，应该是两个表按照各自的条件过滤，过滤完成之后，计算参与join的各个字段的总数据量，数据量小的那个表，就是“小表”，应该作为驱动表。

按照上面分析，我们先独立思考下MySQL会选择哪张表作为驱动表呢？

表t1,t2在字段a上都有索引不会全表扫描，其中t1.a=5条件过滤后只有一条，很显然嘛，t1数据量少是小表，肯定是驱动表，错不了，再说了前面的红色粗体已经强调了，不会有错的。

有冇搞错？事实又被打脸了。还记得在开篇我们说过的mysql优化器会对sql语句进行优化的吗？下面我们看下执行计划与优化的sql语句：

格式化后的优化SQL如下：

优化后两表t1,t2都走索引，并且都只有一条结果返回，因此都只会扫描一行，数据量一样，所以谁在前面谁就是驱动表，也就是上面sql中表t2。一切都释然，豁然开通！

回头再仔细想想，高，实在是高！仔细深思之后MySQL优化后的句子真让人猛拍大腿。高明之处在于：

1. 本来join连接是个M*N的嵌套循环，优化后变成了M+N的判断，两表不再嵌套判断了。

2. 优化后，两表没有多大必然联系，只需把两表的结果集拼接即可，互不干扰。如果mysql未来可以多线程查询，岂不十分快哉！

小伙伴们还记得我们在上一章 MySQL索引初探 中编码类型不一致发生隐式转换时有时候走索引，有时候索引又失效的问题吗？下面我们选取有代表性的一条记录来分析：

其中表demo_test总共有640条数据，demo_test_ass有3条数据。显然经过过滤条件t.rid>1完成后demo_test_ass数据量小，应该作为驱动表。虽然test.c_utf8mb4 = t.c2两字段连接中发生了t.c2字段发生隐式转换，但是实际上并不影响被驱动表test上的c_utf8mb4索引。

好了，本章到此结束，让我们一起 总结一下MySQL驱动表与被驱动表的选取原则 ：

หน ง 同等条件，优先选取有索引的表作为被驱动表。 在此介绍一下什么叫同等条件，比如上面的②中的语句。两表没有其他额外的过滤条件，因此选关联字段有索引的t1作为被驱动表。但是如果加了条件(and t1.id=3)，此时t1数据量少，就选取了t2作为被驱动表。

สอง MySQL选择驱动表与被驱动表是基于优化器优化后的，小表是驱动表，大表是被驱动表。 基于优化器优化后开篇的博文A与B 结论成立。

当然这都是我一家之言，并不是官方结论，目前暂未找到官方确切对于驱动表与被驱动表的解释，请大家踊跃拍砖！

用法一

复制代码

代码如下:

SELECT

`keyword_rank`.*

FROM

`keyword_rank`

WHERE

(advertiserid='59')

LIMIT

OFFSET

比如这个SQL

，limit后面跟的是2条数据，offset后面是从第1条开始读取。

用法二

复制代码

代码如下:

SELECT

`keyword_rank`.*

FROM

`keyword_rank`

WHERE

(advertiserid='59')

LIMIT

2,1

而这个SQL，limit后面是从第2条开始读，读取1条信息。

这两个千万别搞混哦。

用法三

复制代码

代码如下:

select

from

tablename

<条件语句>

limit

100,-1

从第100条后开始-最后一条的记录

用法四

复制代码

代码如下:

select

from

tablename

<条件语句>

limit

相当于limit

0,15

.查询结果取前15条数据用法五

mysql低版本不支持limit

offset

limit

offset

在mysql

4.0以上的版本中都可以正常运行，在旧版本的mysql

3.23中无效

limit

offset

等价于

limit

m,n

limit

的优化

mysql的limit给分页带来了极大的方便，但数据量一大的时候，limit的性能就急剧下降

来源：一亩三分地博客

MYSQL的优化是非常重要的。其他最常用也最需要优化的就是limit。mysql的limit给分页带来了极大的方便，但数据量一大的时候，limit的性能就急剧下降。

同样是取10条数据

复制代码

代码如下:

select

from

yanxue8_visit

limit

10000,10

select

from

yanxue8_visit

limit

0,10

就不是一个数量级别的。

网上也很多关于limit的五条优化准则，都是翻译自mysql手册，虽然正确但不实用。今天发现一篇文章写了些关于limit优化的，很不错。

文中不是直接使用limit，而是首先获取到offset的id然后直接使用limit

size来获取数据。根据他的数据，明显要好于直接使用limit。这里我具体使用数据分两种情况进行测试。（测试环境win2033+p4双核

(3GHZ)

+4G内存

mysql

5.0.19）

1、offset比较小的时候。

复制代码

代码如下:

select

from

yanxue8_visit

limit

10,10

多次运行，时间保持在0.0004-0.0005之间

复制代码

代码如下:

Select

From

yanxue8_visit

Where

vid

＞=(

Select

vid

From

yanxue8_visit

Order

vid

limit

10,1

)

limit

多次运行，时间保持在0.0005-0.0006之间，主要是0.0006

结论：偏移offset较小的时候，直接使用limit较优。这个显然是子查询的原因。

2、offset大的时候。

复制代码

代码如下:

select

from

yanxue8_visit

limit

10000,10

多次运行，时间保持在0.0187左右

复制代码

代码如下:

Select

From

yanxue8_visit

Where

vid

＞=(

Select

vid

From

yanxue8_visit

Order

vid

limit

10000,1

)

limit

多次运行，时间保持在0.0061左右，只有前者的1/3。可以预计offset越大，后者越优。

以后要注意改正自己的limit语句，优化一下mysql了

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/8366216.html

MySQL大数据量分页查询方法及其优化

发表评论

评论列表（0条）