之前在网上看到过很多关于mysql联合索引最左前缀匹配的文章,自以为就了解了其原理,最近面试时和面试官交流,发现遗漏了些东西,这里自己整理一下这方面的内容。
最左前缀匹配原则
在mysql建立联合索引时会遵循最左前缀匹配的原则,即最左优先,在检索数据时从联合索引的最左边开始匹配,示例:
对列col1、列col2和列col3建一个联合索引
KEY test_col1_col2_col3 on test(col1,col2,col3)
联合索引 test_col1_col2_col3 实际建立了 (col1)、(col1,col2)、(col,col2,col3) 三个索引。
SELECT * FROM test WHERE col1=“1” AND clo2=“2” AND clo4=“4”
上面这个查询语句执行时会依照最左前缀匹配原则,检索时会使用索引(col1,col2)进行数据匹配。
注意
索引的字段可以是任意顺序的,如:
SELECT * FROM test WHERE col1=“1” AND clo2=“2”
SELECT * FROM test WHERE col2=“2” AND clo1=“1”
这两个查询语句都会用到索引(col1,col2),mysql创建联合索引的规则是首先会对联合合索引的最左边的,也就是第一个字段col1的数据进行排序,在第一个字段的排序基础上,然后再对后面第二个字段col2进行排序。其实就相当于实现了类似 order by col1 col2这样一种排序规则。
有人会疑惑第二个查询语句不符合最左前缀匹配:首先可以肯定是两个查询语句都保函索引(col1,col2)中的col1、col2两个字段,只是顺序不一样,查询条件一样,最后所查询的结果肯定是一样的。既然结果是一样的,到底以何种顺序的查询方式最好呢?此时我们可以借助mysql查询优化器explain,explain会纠正sql语句该以什么样的顺序执行效率最高,最后才生成真正的执行计划。
减少开销 。建一个联合索引(col1,col2,col3),实际相当于建了(col1),(col1,col2),(col1,col2,col3)三个索引。每多一个索引,都会增加写 *** 作的开销和磁盘空间的开销。对于大量数据的表,使用联合索引会大大的减少开销!
覆盖索引 。对联合索引(col1,col2,col3),如果有如下的sql: select col1,col2,col3 from test where col1=1 and col2=2。那么MySQL可以直接通过遍历索引取得数据,而无需回表,这减少了很多的随机io *** 作。减少io *** 作,特别的随机io其实是dba主要的优化策略。所以,在真正的实际应用中,覆盖索引是主要的提升性能的优化手段之一。
效率高 。索引列越多,通过索引筛选出的数据越少。有1000W条数据的表,有如下sql:select from table where col1=1 and col2=2 and col3=3,假设假设每个条件可以筛选出10%的数据,如果只有单值索引,那么通过该索引能筛选出1000W10%=100w条数据,然后再回表从100w条数据中找到符合col2=2 and col3= 3的数据,然后再排序,再分页;如果是联合索引,通过索引筛选出1000w10% 10% *10%=1w,效率提升可想而知!
引申
对于联合索引(col1,col2,col3),查询语句 SELECT * FROM test WHERE col2=2是否能够触发索引?
大多数人都会说NO,实际上却是YES。
原因:
EXPLAIN SELECT * FROM test WHERE col2=2
EXPLAIN SELECT * FROM test WHERE col1=1
观察上述两个explain结果中的type字段。查询中分别是:
index: 这种类型表示mysql会对整个该索引进行扫描。要想用到这种类型的索引,对这个索引并无特别要求,只要是索引,或者某个联合索引的一部分,mysql都可能会采用index类型的方式扫描。但是呢,缺点是效率不高,mysql会从索引中的第一个数据一个个的查找到最后一个数据,直到找到符合判断条件的某个索引。所以,上述语句会触发索引。
ref: 这种类型表示mysql会根据特定的算法快速查找到某个符合条件的索引,而不是会对索引中每一个数据都进行一一的扫描判断,也就是所谓你平常理解的使用索引查询会更快的取出数据。而要想实现这种查找,索引却是有要求的,要实现这种能快速查找的算法,索引就要满足特定的数据结构。简单说,也就是索引字段的数据必须是有序的,才能实现这种类型的查找,才能利用到索引。
以上所述是我给大家介绍的Mysql联合索引最左匹配原则,希望对大家有所帮助,如果大家有任何疑问请给我留言,我会及时回复大家的。
《 两个月拿到N个offer,看看我是如何做到的 》
《 面试总结:2019年最全面试题资料学习大全—(含答案) 》
《 淘宝面试回来,想对程序员们谈谈 》
《 看过太多大厂面试题,其实考的无非是这 3 点能力 》
最左原则顾名思义就是从最左边开始匹配的原则,mysql会一直向右匹配直到遇到范围查询(>、<、between、like)就停止匹配,索引可以任意顺序,mysql的查询优化器会帮你优化成索引可以识别的形式,其针对的是组合索引(又名联合索引)。
假设我们现在对A、B、C三个字段建立组合索引,来剖析什么时候会用到索引。
A=nickName, B=groupId, C=sign。
首先来看下我的表结构和索引如图1-2,在这里就不作过多赘述。
我先来介绍下图3中sql在expalin执行计划后得一些参数。
id: 为选择标识符。
select_type: 表示查询的类型,SIMPLE表示简单的select,没有union和子查询。
table: 输出结果集的表。
partitions: 匹配的分区。
type: 表示表的连接类型,range是指给定范围内的检索,比如 in(xx, xx) 或者 between。该类最好的时候是const(即表示为通过索引一次就找到了),最差的时候是all(需要遍历全表)。
possible_keys: 表示查询时,可能使用的索引。(显示可能应用在这张表中的索引,不一定能应用到。)
key: 表示实际使用的索引。
key_len: 索引字段的长度。
ref: 列与索引的比较。
rows: 找到所需的记录所需要读取的行数。
filtered: 按表条件过滤的行百分比。
Extra: 执行情况的描述和说明。
由图3的key字段看出A、B、C下,我们使用上了nickName_id_sign联合索引,rows字段看出,读取了1行。
那我们来看看B、C、A与C、B、A呢?
图4-5看出B、C、A与C、B、A也用到了索引,为什么呢?
这是因为当客户端把SQL语句传送到服务器后,服务器进程会对该语句进行解析。这个解析的工作是在服务器端所进行的,解析动作又可分为很多小动作。其中最重要的一步就是确定最佳执行计划。服务器进程会根据一定的规则,对这条语句进行优化。(在执行计划开始之前会有一步查询转换,如:视图合并、子查询解嵌套、谓语前推及物化视图重写查询等。【此处不理解可以忽略,大概可以理解为优化器寻找最低成本的执行计划】)。最终确定可能的最低成本的执行计划。当服务器进程的优化器确定这条查询语句的最佳执行计划后, 就会将这条SQL语句与执行计划保存到数据高速缓存,提高SQL语句处理效率。
在mysql中会使用Index Merge intersection algorithm算法来调整条件子句顺序(可以理解为上面所表述的 寻找最低成本的执行计划 ),详情请看 官方文档 。
由图6可以看出A、B组合也使用到了索引,看到type值为ref(非唯一性索引扫描,返回匹配某个单独值的所有行,本质上也是一种索引访问,它返回所有匹配某个单独值的行,它可能会找到多个符合条件的行,所以他应该属于查找和扫描的混合体。),再看rows,为40条,比A、B、C下略多,但还好,可以接受。
由图7可以看出A、C组合也使用到了索引,可以看到key_len索引中使用的字节数比A、B、C与A、B下小得多,再看rows,为七万多条, filtered 的过滤条件仅为百分之十,这是因为A、B、C组合索引覆盖了(A)、(A,B)、(A,B,C)三个索引 点击查看官方文档 ,而A、C组合用到了A索引,我们来看图8只有A条件nickName下与图7的rows参数都一致。filtered参数不一致是因为where的后置条件决定其过滤比例的。
图9可看出B、C组合下没有用到索引,type类型为ALL遍历整表去寻找记录, possible_keys与key 都为空,rows几乎为全表记录。这是因为组合索引的最左匹配原则,mysql会根据A来确定下一步的搜索方向,当没有A时,就只能去全记录去寻找。
有什么问题请留言,大家一起探讨学习
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)