「Mysql索引原理（六）」聚簇索引_随笔

本节课主要关注InnoDB，但是这里讨论的原理对于任何支持聚簇索引的存储引擎都是适用的。

叶子节点包含了全部数据，其他节点只包含索引列。InnoDB将通过主键聚集数据，也就是说上图中的“被索引的列”就是主键列。如果没有定义主键，InnoDB会选择一个唯一的非空索引代替。如果没有这样的索引InnoDB会隐式定义一个主键来作为聚簇索引。

如果主键比较大的话，那辅助索引将会变的更大，因为 辅助索引的叶子存储的是主键值；过长的主键值，会导致非叶子节点占用占用更多的物理空间

所以建议使用int的auto_increment作为主键

主键的值是顺序的，所以 InnoDB 把每一条记录都存储在上一条记录的后面。当达到页的最大值时，下一条记录就会写入新的页中。一旦数据按照这种顺序的方式加载，主键页就会近似于被顺序的记录填满。

聚簇索引的数据的物理存放顺序与索引顺序是一致的，即：只要索引是相邻的，那么对应的数据一定也是相邻地存放在磁盘上的。如果主键不是自增id，那么可以想象，它会干些什么，不断地调整数据的物理地址、分页，当然也有其他一些措施来减少这些 *** 作，但却无法彻底避免。但，如果是自增的，那就简单了，它只需要一页一页地写，索引结构相对紧凑，磁盘碎片少，效率也高。

因为MyISAM的主索引并非聚簇索引，那么他的数据的物理地址必然是凌乱的，拿到这些物理地址，按照合适的算法进行I/O读取，于是开始不停的寻道不停的旋转。聚簇索引则只需一次I/O。（强烈的对比）

不过，如果涉及到大数据量的排序、全表扫描、count之类的 *** 作的话，还是MyISAM占优势些，因为索引所占空间小，这些 *** 作是需要在内存中完成的。

MyISM使用的是非聚簇索引， 非聚簇索引的两棵B+树看上去没什么不同 ，节点的结构完全一致只是存储的内容不同而已，主键索引B+树的节点存储了主键，辅助键索引B+树存储了辅助键。表数据存储在独立的地方，这两颗B+树的叶子节点都使用一个地址指向真正的表数据，对于表数据来说，这两个键没有任何差别。由于 索引树是独立的，通过辅助键检索无需访问主键的索引树 。

所以说，聚簇索引性能最好而且具有唯一性，所以非常珍贵，必须慎重设置。 一般要根据这个表最常用的SQL查询方式来进行选择，某个字段作为聚簇索引，或组合聚簇索引 ，这个要看实际情况。

聚簇索引和非聚簇索引的数据分布有区别，主键索引和二级索引的数据分布也有区别，通常会让人感到困扰和以外，下面通过一个列子来讲解InnoDB和MyISAM是如何存储数据的：

该表的主键取值1~10000，按照随机顺序插入并使用optimize table命令做了优化。换句话说，数据在磁盘上的存储方式已是最优，但行的顺序是随机的。列col2的值是从1~100之间随机赋值，所以有很多重复的值。

MyISAM的数据分布很简单，所以先介绍它。MyISAM按照数据插入的顺序存储在磁盘上，如下图所示：

在行的旁边显示行号，从0开始递增。因为行是定长的，所以MyISAM可以从表的开头跳过所需的字节找到需要的行。

col2上的索引

事实上，MyISAM中主键索引和其他索引在结构上没有什么不同。主键索引就是一个名为PRIMARY的唯一非空索引。

InnoDB支持聚簇索引，所以使用不同的方式存储同样的数据。

第一眼看上去，感觉和前面的没什么区别，但是该图显示了整个表，而不是只有索引。因为在InnoDB中，聚簇索引就是表，所以不像MyISAM那样需要独立的行存储，这也是为什么MyISAM索引和数据结构是分开的。

聚簇索引的每一个叶子节点都包含了主键值。事务ID、用于事务和MVCC的回滚指针以及所有的剩余列。如果主键是一个列前缀索引，InnoDB也会包含完整的主键列和剩下的其他列。

还有一点和MyISAM不同的是，InnoDB的二级索引和聚簇索引很不相同。InnoDB的二级索引的叶子节点中存储的不是“行指针”，而是主键值，并以此作为指向行的“指针”。这样的策略减少了当出现行移动或者数据页分裂时二级索引的维护工作。使用主键值当作指针会让二级索引占用更多的空间，换来的好处是，InnoDB在移动时无需更新二级索引中的这个“指针”。

我们在来看一下 col2索引 。

每一个叶子节点包含了索引列（这里是col2），紧接着是主键值（col1），上图我们省略了非叶子节点这样的细节。InnoDB非叶子节点包含了索引列和一个指向下一级节点的指针。

最后，以一张图表示InnoDB和MyISAM保存数据和索引的区别。

前面讲过，最好使用AUTO_INCREMENT自增列来聚集数据，避免随机的、不连续的、值分布范围大的列做聚簇索引，特别是对于I/O密集型的应用。例如，从性能角度考虑，使用UUID来作为聚簇索引则会很糟糕：他使得聚簇索引的插入变得完全随机，这是最坏的情况，使得数据没有任何聚集特性。

为了演示这一点，我们做两个基准测试：

1、使用证书ID插入userinfo表，和uuid作为主键的userinfo_uuid表

userinfo_uuid表跟userinfo表除了主键给为UUID，其他字段都一样

测试这两个表的设计，首先在一个有足够内存容纳索引的服务器上向这两个表各插入100万条记录。然后向两个表继续插入300万数据，使索引的大小超过服务器的内存容量。测试结果如下：

向UUID主键插入行不仅花费的时间更长，而且索引占用的空间也更大。这一方面是由于主键字段更长，另一方面毫无疑问是由于页分裂和碎片导致的。

为了明白为什么会这样，来看看往第一个表中插入数据时，索引发生了什么变化。

自整型主键插入

因为主键是顺序的，所以InnoDB把每一条记录都存在上一条记录的后面。当达到页的最大容量后，下一条记录就会写入到新的页中。一旦数据按照这种顺序的方式加载，主键页就会近似于被顺序的记录填满，这也正是所期望的结果。

UUID插入

因为新行的主键值不一定比之前插入的大，所以InnoDB无法简单的总是把新行插入到索引的最后，而是需要为新的行寻找合适的位置，通常是已有数据的中间位置，并且分配空间。这会正价很多的额外工作，并导致数据分布不够优化。

缺点：

把这些随机值载入到聚簇索引后，也许需要做一次OPTIMIZE TABLE来重建表并优化页的填充。

结论：使用InnoDB时应尽可能地按主键顺序插入数据，并且尽可能地单调增加聚簇键的值来插入新行。

本节介绍数据的插入，复制数据到另一张表的Sql语法，主要语法有： insert into，insert into select，select into from 等用法，下面将一一为大家详细说明：

以下面两张表进行sql脚本说明

insert into有两种语法，分别如下：

语法1：INSERT INTO table_name VALUES (value1,value2,value3,...) --这种形式无需指定要插入数据的列名，只需提供被插入的值即可：

语法2：INSERT INTO table_name (column1,column2,column3,...) VALUES (value1,value2,value3,...) --这种形式需指定要插入数据的列名，插入的值需要和列名一一对应：

eg：insert into customer values('1006','14006','王欣欣','27','深圳市') --向表customer插入一条数据

eg：insert into customer values('1007','14007','孟一凡','27','') --向表customer插入一条数据，最后一个值不填表示对应的值为空，非必填项可以不用插入值

eg：insert into customer (cus_id,cus_no,cus_name,cus_age,cus_adds) values('1008','14008','孔凡','26','广州市') --向表customer插入一条数据，插入的值与列名一一对应

详解：insert into select --表示从一个表复制数据，然后把数据插入到一个已存在的表中。目标表中任何已存在的行都不会受影响。

语法1：INSERT INTO table_name2 SELECT * FROM table_name1 --表示将表table_name1中复制所有列的数据插入到已存在的表table_name2中。被插入数据的表为table_name2，切记不要记混了。

eg：insert into customer select * from asett --将表asett中所有列的数据插入到表customer中

语法2：INSERT INTO table_name2 (column_name(s)) SELECT column_name(s) FROM table_name1 --指定需要复制的列，只复制制定的列插入到另一个已存在的表table_name2中：

eg：insert into customer (cus_id,cus_no) select ast_id,ast_no from asett --将表asett中列ast_id和ast_no的数据插入到表customer对应的cus_id，cus_no列中

详解：从一个表复制数据，然后把数据插入到另一个新表中。

语法1：SELECT * INTO newtable [IN externaldb] FROM table1 --复制所有的列插入到新表中：

eg：select * into customer from asett --将asett表中数据插入到customer中，被插入的表customer不存在

eg：select * into customer from asett where ast_id = '1008' --只复制表asett中ast_id=1008的数据插入到customer中，被插入的表customer不存在

语法2：SELECT column_name(s) INTO newtable [IN externaldb] FROM table1 --只复制指定的列插入到新表中：

eg：select ast_id,ast_no into customer from asett --将asett表中列ast_id,ast_no数据插入到customer中，被插入的表customer不存在

区别1：insert into customer select * from asett where ast_id='1009' --插入一行,要求表customer 必须存在

区别2：select * into customer from asett where ast_id='1009' --也是插入一行,要求表customer 不存在

区别3：select into from ：将查询出来的数据复制到一张新表中保存，表结构与查询结构一致。

区别4：insert into select ：为已经存在的表批量添加新数据。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/8672419.html

「Mysql索引原理（六）」聚簇索引

发表评论

评论列表（0条）