mysql---索引优化_随笔

索引就是为特定的mysql字段进行一些特定的算法排序，比如二叉树的算法和哈希算法，哈希算法是通过建立特征值，然后根据特征值来快速查找。

1.普通索引:(index)最基本的索引，没有任何限制目的:加快数据的查询速度

2.唯一索引:(unique) 与"普通索引"类似，不同的就是：索引列的值必须唯一，但允许有空值。

3.主键索引(primary key) 它是一种特殊的唯一索引，不允许有空值。

4.复合索引:index(a,b,c) 为了更多的提高mysql效率可建立组合索引，遵循”最左前缀“原则。

5.全文索引:fulltext 仅可用于 MyISAM 表，针对较大的数据，生成全文索引很耗时耗空间。

第一类是myisam存储引擎使用的叫做b-tree结构，

第二类是innodb存储引擎使用的叫做聚簇结构（也是一种 b-tree）。如下图：

注意：

1.myisam不需要回行处理

2.innodb不需要回行处理,直接可以获取数据,因为innodb的储存引擎是包含了数据和索引文件的,其主键索引包含了数据,(唯一索引及普通索是没有直接包含数据的)

1、索引列不能参与计算

有索引列参与计算的查询条件对索引不友好（甚至无法使用索引），如from_unixtime(create_time) = '2014-05-29'。

原因很简单，如何在节点中查找到对应key？如果线性扫描，则每次都需要重新计算，成本太高；如果二分查找，则需要针对from_unixtime方法确定大小关系。

因此，索引列不能参与计算。上述from_unixtime(create_time) = '2014-05-29'语句应该写成create_time = unix_timestamp('2014-05-29')。

2、最左前缀匹配

如有索引(a, b, c, d)，查询条件a = 1 and b = 2 and c >3 and d = 4，则会在每个节点依次命中a、b、c，无法命中d。也就是最左前缀匹配原则。

3、冗余和重复索引

冗余索引是指在相同的列上按照相同的顺序创建的相同类型的索引，应当尽量避免这种索引，发现后立即删除。比如有一个索引(A,B)，再创建索引(A)就是冗余索引。冗余索引经常发生在为表添加新索引时，比如有人新建了索引(A,B)，但这个索引不是扩展已有的索引(A)

4、避免多个范围条件

select user.* from user where login_time >'2017-04-01' and age between 18 and 30

比如想查询某个时间段内登录过的用户：它有两个范围条件，login_time列和age列，MySQL可以使用login_time列的索引或者age列的索引，但无法同时使用它们 .

5、覆盖索引 (能扩展就不新建)

如果一个索引包含或者说覆盖所有需要查询的字段的值，那么就没有必要再回表查询，这就称为覆盖索引。覆盖索引是非常有用的工具，可以极大的提高性能，因为查询只需要扫描索引会带来许多好处：

1.索引条目远小于数据行大小，如果只读取索引，极大减少数据访问量2.索引是有按照列值顺序存储的，对于I/O密集型的范围查询要比随机从磁盘读取每一行数据的IO要少的多

6、选择区分度高的列作索引

如，用性别作索引，那么索引仅能将1000w行数据划分为两部分（如500w男，500w女），索引几乎无效。

区分度的公式是count(distinct ) / count(*)，表示字段不重复的比例，比例越大区分度越好。唯一键的区分度是1，而一些状态、性别字段可能在大数据面前的区分度趋近于0。

7、删除长期未使用的索引

场景一(覆盖索引 5)

索引应该建在选择性高的字段上（键值唯一的记录数/总记录条数），选择性越高索引的效果越好、价值越大，唯一索引的选择性最高；

组合索引中字段的顺序，选择性越高的字段排在最前面；

where条件中包含两个选择性高的字段时，可以考虑分别创建索引，引擎会同时使用两个索引（在OR条件下，应该说必须分开建索引）；

不要重复创建彼此有包含关系的索引，如index1(a,b,c) 、index2(a,b)、index3(a)；

组合索引的字段不要过多，如果超过4个字段，一般需要考虑拆分成多个单列索引或更为简单的组合索引；

不要滥用索引。因为过多的索引不仅仅会增加物理存储的开销，对于插入、删除、更新 *** 作也会增加处理上的开销，而且会增加优化器在选择索引时的计算代价。

因此太多的索引与不充分、不正确的索引对性能都是毫无益处的。一言以蔽之，索引的建立必须慎重，对每个索引的必要性都应该经过仔细分析，要有建立的依据。

在某些情况中，MySQL能够做得更好，通过索引访问而不用创建临时表。

GROUP BY使用索引的最重要的前提条件是所有GROUP BY列引用同一索引的属性，并且索引按顺序保存(例如，这是B-树索引，而不是HASH索引)。

是否用索引访问来代替临时表的使用还取决于在查询中使用了哪部分索引、为该部分指定的条件，以及选择的累积函数。

有两种方法可以通过索引优化GROUP BY语句：

1，组合 *** 作结合所有范围判断式使用(如果有)。

2，首先执行范围扫描，然后组合结果元组。

范围访问方法使用一个索引来检索包含一个或多个索引间隔中的表行的子集。它可以使用索引中的一列或者多列，以下各节描述了优化器使用范围访问的条件

对于一个单列索引，索引值间隔可以方便地由 WHERE 条件中的相应条件表示，表示为范围条件而不是 intervals 。

上述的常量指以下情况之一：

以下是在 WHERE 子句中具有范围条件的查询示例

一些非常量可能会在优化器传播阶段转换为常量

MySQL对于每个可能使用的索引，尝试从 WHERE 子句中提取范围条件。在提取过程中，不能用于构建条件范围的条件被删除，产生重复范围的条件被合并，产生空范围的条件被删除。

假设有以下语句， key1 是一个被索引的列，而 nonkey 没有索引

提取 key1 索引的过程如下：

通常，范围扫描使用的条件比 WHERE 子句中的限制要少()。MySQL执行额外的检查来过滤满足范围条件但是不完全满足 WHERE 子句的行。

范围条件提取算法可以处理任意深度嵌套的 AND/OR 构造，并且它的输出不取决于条件在 WHERE 子句中出现的顺序

MySQL不支持为空间索引的 range 访问合并多个范围。要解决此限制，可以在相同的 SELECT 语句中使用 UNION 语句，将每个空间谓词放在不同的 SELECT 中。

多列索引的范围条件是单列索引的扩展，多列索引的范围条件将索引行限制在一个或多个索引元组的间隔中。索引元组间隔是一个按照索引顺序的，索引元组的集合。

假设有一个多列索引 key1(key_part1,key_part2,key_part3) ,按照索引顺序，具有以下键值元组列表

key_part1 = 1 定义了一个间隔： (1,-inf,-inf) <= (key_part1,key_part2,key_part3) <(1,+inf,+inf) ，这个间隔包括上面的第4、5、6个元组并且可以被用来进行范围访问。

但是， key_part3 = 'abc' 没有定义间隔并且不能被范围访问方法使用。

就是索引的最左前缀原则，B树索引是有序的，多列索引是首先按照第一列进行排序，然后在第一列排序的基础上，再对第二列数据进行排序，所以后面的列的顺序独立来看不是有序的，就不能单独用后面的列来进行排序或者范围访问的 *** 作。

对于 HASH 索引，只能使用包含相同值的每个间隔。这意味着只能针对以下形式的条件生成间隔：

这里， const1,const2... 是常量， cmp 是比较表达式： =,<=>,IS NULL ,并且条件覆盖所有的索引部分（就是说，如果有 N 个条件，那么每个条件都需要是一个 N列索引的一部分）。例如：以下是一个三列 HASH 索引的一个范围条件

对于 BTREE 索引，一个间隔可以是使用 AND 组成的多个范围条件的集合，每个条件都将索引的一部分和一个常量使用 =,<=>,IS NULL,>,<,>=,<=,!=,<>,BETWEENT,LIKE 'pattern'(pattern不以通配符开始) 进行比较。只要可以确定与条件匹配的一个索引元组，就可以使用一个间隔（ !=,<>使用两个间隔）

当比较运算符是 =,<=>,IS NULL 时，优化器尝试使用索引的其他部分来确定间隔。如果比较运算符是 >, <, >=, <=, !=, <>, BETWEEN, LIKE ,优化器使用索引，但不考虑索引中的其他列。

对于以下表达式，优化器使用第一个 = ，也会使用第二个 >= ,但是忽略其他索引部分，并且不将第三部分用作间隔构造。

key_part1 = 'foo' AND key_part2 >= 10 AND key_part3 >10

单个间隔为：

创建的间隔中可能包括比原始条件更多的行，比如，前面这个间隔可能会包括 ('foo',11,0) 这个值， 0<10 ,这个值不满足原始条件

如果覆盖间隔中的行集合的条件使用 OR 进行组合，则他们会形成间隔的并集。

如果条件使用 AND 进行组合，他们形成一个包括间隔交集的行集合。

示例：

这个在两列索引上的条件：

(key_part1 = 1 AND key_part2 <2) OR (key_part1 >5)

间隔是：

可以查看 EXPLAIN 输出中的 key_len 部分查看使用的索引前缀的最大长度。

在某些情况下， key_len 包括已使用的索引列，但是这个列可能不是你期望的，假设 key_part1 和 key_part2 可以为 NULL ,然后， key_len 显示以下条件的两个索引部分长度：

key_part1 >= 1 AND key_part2 <2

但是实际上，这个条件被转换为：

key_part1 >= 1 AND key_part2 IS NOT NULL

假设以下表达式, col_name 是一个索引的列

只要 col_name 等同于这些值中的任意一个，这个表达式结果就是 true 。这种比较是等值范围比较（其中的“范围”是一个单独的值）。

优化器按照以下方法，估算读取相等的值来进行等值范围比较的成本：

当使用 index dive 时，优化器在每个范围的末端进行 dive 并且使用该范围中的行数作为估算值。例如： col_name IN (10, 20, 30) 具有三个等值范围，优化器对每个范围进行两次 dive 以生成估算值。每次 dive 都会得出具有给定值的行数的估算值。

使用 index dive 提供了准确的行数估算值，但是随着表达式中要比较的值的数量增加，优化器需要使用更长的时间来生成行数的估算值。而使用索引统计信息的准确性不如直接使用索引，但是可以对大表进行更快的估算。

eq_range_index_dive_limit 选项可以控制优化器选择评估策略的值。要对 N 个等值范围使用 index dive ，将 eq_range_index_dive_limit 设置为 N+1 ,要禁用统计信息，总是使用 index dive ，将 eq_range_index_dive_limit 设置为0。

在MySQL8.0以前，除了使用 eq_range_index_dive_limit ，没有其他方法可以跳过 index dive 。在MySQL8.0中，当满足以下条件时，跳过 index dive :

对于 EXPLAIN FOR CONNECTION ,如果跳过了 index dive ，输出结果有所变更：

不包括 FOR CONNECTION 的 EXPLAIN 输出没有变化

在执行跳过 index dive 的查询后， INFORMATION_SCHEMA.OPTIMIZER_TRACE 表包含一个值为 skipped_due_to_force_index 的 index_dives_for_range_access 行

优化器可以对这种形式的查询进行范围扫描：

SELECT ... FROM t1 WHERE ( col_1, col_2 ) IN (( 'a', 'b' ), ( 'c', 'd' ))

要使用范围扫描，查询必须满足以下条件：

要控制有多少内存可以用来进行范围优化，使用 range_optimizer_max_mem_size 变量

使用以下原则估算范围扫描使用的内存：

IN() 中的每个值被当做使用 OR 结合的一个谓词。如果有两个 IN() 列表，每个列表中都是列表中的值的数量个谓词通过 OR 结合。在这种情况下，视作 M × N 个谓词通过OR 结合。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/7492917.html

mysql---索引优化

发表评论

评论列表（0条）