MySQL处理达到百万级数据时，如何优化_随笔

首先，数据量大的时候，应尽量避免全表扫描，应考虑在 where 及 order by 涉及的列上建立索引，建索引可以大大加快数据的检索速度。但是，有些情况索引是不会起效的：

1、应尽量避免在 where 子句中使用!=或<> *** 作符，否则将引擎放弃使用索引而进行全表扫描。

2、应尽量避免在 where 子句中对字段进行 null 值判断，否则将导致引擎放弃使用索引而进行全表扫描，如：

select id from t where num is null

可以在num上设置默认值0，确保表中num列没有null值，然后这样查询：

select id from t where num=0

3、尽量避免在 where 子句中使用 or 来连接条件，否则将导致引擎放弃使用索引而进行全表扫描，如：

select id from t where num=10 or num=20

可以这样查询：

select id from t where num=10

union all

select id from t where num=20

4、下面的查询也将导致全表扫描：

select id from t where name like ‘%abc%’

若要提高效率，可以考虑全文检索。

5、in 和 not in 也要慎用，否则会导致全表扫描，如：

select id from t where num in(1,2,3)

对于连续的数值，能用 between 就不要用 in 了：

select id from t where num between 1 and 3

6、如果在 where 子句中使用参数，也会导致全表扫描。因为SQL只有在运行时才会解析局部变量，但优化程序不能将访问计划的选择推迟到运行时；它必须在编译时进行选择。然而，如果在编译时建立访问计划，变量的值还是未知的，因而无法作为索引选择的输入项。如下面语句将进行全表扫描：

select id from t where num=@num

可以改为强制查询使用索引：

select id from t with(index(索引名)) where num=@num

7、应尽量避免在 where 子句中对字段进行表达式 *** 作，这将导致引擎放弃使用索引而进行全表扫描。如：

select id from t where num/2=100

应改为:

select id from t where num=100*2

8、应尽量避免在where子句中对字段进行函数 *** 作，这将导致引擎放弃使用索引而进行全表扫描。如：

select id from t where substring(name,1,3)=’abc’–name以abc开头的id

select id from t where datediff(day,createdate,’2005-11-30′)=0–’2005-11-30′生成的id

应改为:

select id from t where name like ‘abc%’

select id from t where createdate>=’2005-11-30′ and createdate<’2005-12-1′

9、不要在 where 子句中的“=”左边进行函数、算术运算或其他表达式运算，否则系统将可能无法正确使用索引。

10、在使用索引字段作为条件时，如果该索引是复合索引，那么必须使用到该索引中的第一个字段作为条件时才能保证系统使用该索引，否则该索引将不会被使用，并且应尽可能的让字段顺序与索引顺序相一致。

11、不要写一些没有意义的查询，如需要生成一个空表结构：

select col1,col2 into #t from t where 1=0

这类代码不会返回任何结果集，但是会消耗系统资源的，应改成这样：

create table #t(…)

12、很多时候用 exists 代替 in 是一个好的选择：

select num from a where num in(select num from b)

用下面的语句替换：

select num from a where exists(select 1 from b where num=a.num)

第一阶段：

1，一定要正确设计索引

2，一定要避免SQL语句全表扫描，所以SQL一定要走索引（如：一切的 ><!= 等等之类的写法都会导致全表扫描）

3，一定要避免 limit 10000000,20 这样的查询

4，一定要避免 LEFT JOIN 之类的查询，不把这样的逻辑处理交给数据库

5，每个表索引不要建太多，大数据时会增加数据库的写入压力

第二阶段：

1，采用分表技术（大表分小表）

a)垂直分表：将部分字段分离出来，设计成分表，根据主表的主键关联

b)水平分表：将相同字段表中的记录按照某种Hash算法进行拆分多个分表

2，采用mysql分区技术（必须5.1版以上，此技术完全能够对抗Oracle），与水平分表有点类似，但是它是在逻辑层进行的水平分表

第三阶段（服务器方面）：

1,采用memcached之类的内存对象缓存系统，减少数据库读取 *** 作

2,采用主从数据库设计，分离数据库的读写压力

3,采用Squid之类的代理服务器和Web缓存服务器技术

PS:由于篇幅问题，我只简单说一些基本概念，其实里面每个知识点关系到的内容都很多。特别是第一阶段，很多工作几年的程序员，都不能完全理解。我觉得要真正理解索引，最好的办法就是在1000W-亿级以上的数据，进行测试SQL语句，再结合 explain 命令进行查看SQL语句索引情况。

mysql能处理海量数据的。

1、应尽量避免在 where 子句中使用!=或<> *** 作符，否则将引擎放弃使用索引而进行全表扫描。

2、对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。

3、应尽量避免在 where 子句中对字段进行 null 值判断，否则将导致引擎放弃使用索引而进行全表扫描，如：

select id from t where num is null

可以在num上设置默认值0，确保表中num列没有null值，然后这样查询：

select id from t where num=0

4、尽量避免在 where 子句中使用 or 来连接条件，否则将导致引擎放弃使用索引而进行全表扫描，如：

select id from t where num=10 or num=20

可以这样查询：

select id from t where num=10

union all

select id from t where num=20

5、下面的查询也将导致全表扫描：(不能前置百分号)

select id from t where name like ‘�1�7c%’

若要提高效率，可以考虑全文检索。

6、in 和 not in 也要慎用，否则会导致全表扫描，如：

select id from t where num in(1,2,3)

对于连续的数值，能用 between 就不要用 in 了：

select id from t where num between 1 and 3

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/7575583.html

MySQL处理达到百万级数据时，如何优化

发表评论

评论列表（0条）