mysql全文索引如何支持中文_随笔

使用索引是数据库性能优化的必备技能之一。在mysql数据库中，有四种索引：聚集索引(主键索引)、普通索引、唯一索引以及我们这里将要介绍的全文索引(fulltext

index)。

全文索引(也称全文检索)是目前搜索引擎使用的一种关键技术。它能够利用「分词技术「等多种算法智能分析出文本文字中关键字词的频率及重要性，然后按照一定的算法规则智能地筛选出我们想要的搜索结果。在这里，我们就不追根究底其底层实现原理了，现在我们来看看在mysql中如何创建并使用全文索引。

在mysql中，创建全文索引相对比较简单。例如，我们有一个文章表(article)，其中有主键id(id)、文章标题(title)、文章内容(content)三个字段。现在我们希望能够在title和content两个列上创建全文索引，article表及全文索引的创建sql语句如下：

--创建article表

create

table

article

(

int

unsigned

auto_increment

not

null

primary

key,

title

varchar(200),

content

text,

fulltext

(title,

content)

--在title和content列上创建全文索引

)

上面就是在创建表的同时建立全文索引的sql示例。此外，如果我们想要给已经存在的表的指定字段创建全文索引，同样以article表为例，我们可以使用如下sql语句进行创建：

--给现有的article表的title和content字段创建全文索引

--索引名称为fulltext_article

alter

table

article

add

fulltext

index

fulltext_article

(title,

content)

在mysql中创建全文索引之后，现在就该了解如何使用了。众所周知，在数据库中进行模糊查询是使用like关键字进行查询，例如：

select

from

article

where

content

'%查询字符串%'

那么，我们使用全文索引也是这样用的吗？当然不是，我们必须使用特有的语法才能使用全文索引进行查询。例如，我们想要在article表的title和content列中全文检索指定的查询字符串，可以如下编写sql语句：

select

from

article

where

match(title,

content)

against('查询字符串')

强烈注意：mysql自带的全文索引只能用于数据库引擎为myisam的数据表，如果是其他数据引擎，则全文索引不会生效。此外，mysql自带的全文索引只能对英文进行全文检索，目前无法对中文进行全文检索。如果需要对包含中文在内的文本数据进行全文检索，我们需要采用sphinx(斯芬克斯)/coreseek技术来处理中文。本站将会在后续文章中对sphinx以及coreseek进行介绍。

备注1：目前，使用mysql自带的全文索引时，如果查询字符串的长度过短将无法得到期望的搜索结果。mysql全文索引所能找到的词的默认最小长度为4个字符。另外，如果查询的字符串包含停止词，那么该停止词将会被忽略。

备注2：如果可能，请尽量先创建表并插入所有数据后再创建全文索引，而不要在创建表时就直接创建全文索引，因为前者比后者的全文索引效率要高。

在mysql中，索引是一种特殊的数据库结构，由数据表中的一列或多列组合而成，可以用来快速查询数据表中有某一特定值的记录。

通过索引，查询数据时不用读完记录的所有信息，而只是查询索引列即可。

通过索引，查询数据时不用读完记录的所有信息，而只是查询索引列。否则，数据库系统将读取每条记录的所有信息进行匹配。

可以把索引比作新华字典的音序表。例如，要查“库”字，如果不使用音序，就需要从字典的 400 页中逐页来找。但是，如果提取拼音出来，构成音序表，就只需要从 10 多页的音序表中直接查找。这样就可以大大节省时间。

因此，使用索引可以很大程度上提高数据库的查询速度，还有效的提高了数据库系统的性能。

索引的优缺点

索引有其明显的优势，也有其不可避免的缺点。

优点

索引的优点如下：

1、通过创建唯一索引可以保证数据库表中每一行数据的唯一性。

2、可以给所有的 MySQL 列类型设置索引。

3、可以大大加快数据的查询速度，这是使用索引最主要的原因。

4、在实现数据的参考完整性方面可以加速表与表之间的连接。

5、在使用分组和排序子句进行数据查询时也可以显著减少查询中分组和排序的时间

缺点

增加索引也有许多不利的方面，主要如下：

1、创建和维护索引组要耗费时间，并且随着数据量的增加所耗费的时间也会增加。

2、索引需要占磁盘空间，除了数据表占数据空间以外，每一个索引还要占一定的物理空间。如果有大量的索引，索引文件可能比数据文件更快达到最大文件尺寸。

3、当对表中的数据进行增加、删除和修改的时候，索引也要动态维护，这样就降低了数据的维护速度。

使用索引时，需要综合考虑索引的优点和缺点。

MySQL的Innodb存储引擎的索引分为聚集索引和非聚集索引两大类

特点：B+树叶子节点存储行数据

一个表中，必须有一个聚集索引，只能有一个聚集索引，Innodb通常把一个表的主键索引作为聚集索引，如果没有主键InnoDB会选择一个唯一索引代替。如果没有这样的索引，InnoDB会隐式的定义一个主键来作为聚集索引，这个字段为6个字节，类型为长整形。

利用主键索引查找行数据是最快的，建议使用自增主键原因是利于索引树的构建（主键自增写入时新插入的数据不会影响到原有页，插入效率高；但是如果主键是无序的或者随机的，那每次的插入可能会导致原有页频繁的分裂，影响插入效率）

特点：B+树叶子节点存储主键ID

一个表中可以有多个非聚集索引，每个非聚集索引即是一棵B+树

通过非聚集索引查找数据时，需要先在非聚集索引上找到主键ID，再从聚集索引获取行数据，这个过程就称之为回表

B树索引中的B树实际上是B+树，至于为什么使用B+树而不使用B树或者红黑树的原因在另外的文章中有提及。

特点：

特点：类似JDK中的HashMap，但无法支持范围查询

特点：使用的算法仍然是B树索引，不同的就是索引列的值必须唯一

对于普通索引来说，查找到满足条件的第一个记录后，需要查找下一个记录，直到碰到第一个不满足条件的记录。

对于唯一索引来说，由于索引定义了唯一性，查找到第一个满足条件的记录后，就会停止继续检索，提升索引性能

另外插入行时会构建该唯一索引，假如索引值重复将插入失败，适合业务上做唯一性检验

通过建立倒排索引，可以极大的提升检索效率,解决判断字段是否包含的问题，但是业务上一般都不采用这种索引，而是使用ES处理全文搜索需求

仅对某个特定字段建立的索引，如(biz_id)

对多个字段建立的索引，如(biz_id,type)

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/8598027.html

mysql全文索引如何支持中文

发表评论

评论列表（0条）