数据库索引怎么建立?_sql

程序员必备的浏览器插件

越来越好ing

关注

数据库索引是什么，有什么用，怎么用转载

2018-12-04 23:30:36

5点赞

越来越好ing

码龄2年

关注

下面是关于数据库索引的相关知识：

简单来说，数据库索引就是数据库的数据结构！进一步说则是该数据结构中存储了一张表中某一列的所有值，也就是说索引是基于数据表中的某一列创建的。总而言之：一个索引是由表中某一列上的数据组成，并且这些数据存储在某个数据结构中。

2.索引的作用。举个例子，假设有一张数据表Emplyee，该表有三列：

表中有几万条记录。现在要执行下面这条查询语句，查找出所有名字叫“Jesus”的员工的详细信息

3.如果没有数据库索引功能，数据库系统会逐行的遍历整张表，对于每一行都要检查其Employee_Name字段是否等于“Jesus”。因为我们要查找所有名字为“Jesus”的员工，所以当我们发现了一条名字是“Jesus”的记录后，并不能停止继续查找，因为可能有其他员工也叫“Jesus”。这就意味着，对于表中的几万条记录，数据库每一条都要检查。这就是所谓的“全表扫描”（ full table scan）

4.而数据库索引功能索引的最大作用就是加快查询速度，它能从根本上减少需要扫表的记录/行的数量。

5.如何创建数据库索引。可以基于Employee表的两列创建索引即可：

拓展资料：

索引是对数据库表中一列或多列的值进行排序的一种结构，使用索引可快速访问数据库表中的特定信息。如果想按特定职员的姓来查找他或她，则与在表中搜索所有的行相比，索引有助于更

索引就是在一个或者几个列上创建的一种用于提高查询速度的对象，可以把它想象成字典中的目录，没有索引的话，查询照样可以执行，只是查找时需要从第一条记录一直搜索到最后一条记录，而有了索引就可以快速定位到要查找的记录，可以提高查询效率。但是相对的，会降低增删改的速度（因为数据发生变化之后，索引也要重新更新），而且索引本身是一种对象，也需要专门的存储空间来保存，所以还要付出一定的空间代价。

https://blog.csdn.net/weixin_43935927/article/details/109491334

建立索引，要使用离散度（选择度）更高的字段。

我们先来看一个重要的属性列的离散度，

count(distinct(column_name)) : count(*) -- 列的全部不同值个数：所有数据行行数

数据行数相同的情况下，分子越大，列的离散度就越高。简单来说，如果列的重复值越多，离散度就越低，重复值越少，离散度就越高。

当字段值比较长的时候，建立索引会消耗很多的空间，搜索起来也会很慢。我们可以通过截取字段的前面一部分内容建立索引，这个就叫前缀索引。

创建一张商户表，因为地址字段比较长，在地址字段上建立前缀索引

create table shop(address varchar(120) not null)

alter table shop add key(address(12)) // 截取12个字符作为前缀索引是最优的吗？

问题是，截取多少呢？截取得多了，达不到节省索引存储空间的目的，截取得少了，重复内容太多，字段的散列度（选择性）会降低。怎么计算不同的长度的选择性呢？

先看一下字段在全部数据中的选择度计算公式：

select count(distinct address) / count(*) from shop

select count(distinct left(address, n)) / count(*) as subn from shop

count(distinct left(address,n)) / count(*) 的结果是会随着 n 的变大而变大。举个例子，现在有两个address（东大街长兴小区，东大街福乐小区），那么 distinct(address，2) <distinct(address，3）

==>所以，截取的长度越长就会越接近字段在全部数据中的选择度

==>所以，我们要权衡索引大小和查询速度。

举个例子，通过不同长度去计算，与全表的选择性对比：

SELECT COUNT(DISTINCT(address))/COUNT(*) sub, -- 字段在全部数据中的选择度

COUNT(DISTINCT(LEFT(address,5)))/COUNT(*) sub5, -- 截取前5个字符的选择度

COUNT(DISTINCT(LEFT(address,7)))/COUNT(*) sub7,

COUNT(DISTINCT(LEFT(address,9)))/COUNT(*) sub9,

COUNT(DISTINCT(LEFT(address,10)))/COUNT(*) sub10, -- 截取前10个字符的选择度

COUNT(DISTINCT(LEFT(address,11)))/COUNT(*) sub11,

COUNT(DISTINCT(LEFT(address,12)))/COUNT(*) sub12,

COUNT(DISTINCT(LEFT(address,13)))/COUNT(*) sub13,

COUNT(DISTINCT(LEFT(address,15)))/COUNT(*) sub15

FROM shop

+--------+--------+--------+--------+--------+--------+--------+--------+--------+

| sub | sub5 | sub7 | sub9 | sub10 | sub11 | sub12 | sub13 | sub15 |

+--------+--------+--------+--------+--------+--------+--------+--------+--------+

| 0.9993 | 0.0225 | 0.4663 | 0.8618 | 0.9734 | 0.9914 | 0.9943 | 0.9943 | 0.9958 |

+--------+--------+--------+--------+--------+--------+--------+--------+--------+

可以看到在截取 11 个字段时 sub11(0.9993) 就已经很接近字段在全部数据中的选择度 sub(0.9958)了，而且长度也相较后面更短一些，综合考虑比较合适。

ALTER TABLE shop ADD KEY (address(11))

1.索引的个数不要过多（浪费空间，更新变慢）

2.在用于 where 判断 order 排序和 join 的（on）字段上创建索引

3.区分度低的字段，例如性别，不要建索引（离散度太低，导致扫描行数过多）

4.更新频繁的值，不要作为主键或者索引（页分裂）

5.不建议用无序的值作为索引，例如身份z、UUID（在索引比较时需要转为ASCII，并且插入时可能造成页分裂）

6.若在多个字段都要创建索引的情况下，联合索引优于单值索引

7.联合索引把散列性高（区分度高）的值放在前面

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9375099.html

数据库索引怎么建立?

发表评论

评论列表（0条）