MySql删除重复记录问题_随笔

mysql的删除动作不能带有本表的查询动作，意思是你删除A表的东西不能以A表的信息为条件，如下不可以：

delete from A where aa in (select bb from A)

你可以通过建另外一张表，两张表匹配关系 *** 作，如：

create table t_b as select * from t_a group by empno

delete from t_a where empid not exists (select 1 from t_b where t_a.empid=t_b.empid)

MySQL内存参数配置推荐：https://tools.percona.com/wizard

1.慢查询日志：

slow_launch_time=2 查询大于某个时间的值(单位：s)

slow_query_log=on/off 开启关闭慢查询日志

slow_query_log_file=/opt/data/host-slow.log 慢查询日志位置

2.连接数:

max_connections MySQL最大连接数

back_log 当连接数满了后，设置一个值，允许多少个连接进入等待堆栈

max_connect_errors 账号连接到服务器允许的错误次数

connect_timeout 一个连接报文的最大时间(单位：s)

skip-name-resolve 加入my.cnf即可，MySQL在收到连接请求的时候，会根据请求包

中获得的ip来反向追查请求者的主机名。然后再根据返回

的主机名又一次去获取ip。如果两次获得的ip相同，那么连接就成功建立了。

加了次参数，即可省去这个步骤

NOTES:

查询当前连接数:show global status like 'connections'

3.key_buffer_size 索引缓存大小，是对MyISAM表性能影响最大的一个参数

32bit平台上，此值不要超过2GB，64bit平台不用做此限制，但也不要超过4GB

根据3点计算：

a.系统索引总大小

b.系统物理内存

c.系统当前keycache命中率

粗略计算公式：

Key_Size =key_number*(key_length+4)/0.67

Max_key_buffer_size

Threads_Usage = max_connections * (sort_buffer_size + join_buffer_size +

read_buffer_size+read_rnd_buffer_size+thread_stack)

key_cache_block_size ，是key_buffer缓存块的单位长度，以字节为单位，默认值为1024。

key_cache_division_limit 控制着缓存块重用算法。默认值为100，此值为key_buffer_size中暖链所占的大小百分比(其中有暖链和热链)，100意味着全是暖链。(类似于Oracle Data Buffer Cache中的default、keep、recycle)

key_cache_age_threshold 如果key_buffer里的热链里的某个缓存块在这个变量所设定的时间里没有被访问过，MySQL服务器就会把它调整到暖链里去。这个参数值越大，缓存块在热链里停留的时间就越长。

这个参数默认值为 300，最小值为100。

Myisam索引默认是缓存在原始key_buffer中的，我们可以手动创建新的key_buffer，如在my.cnf中加入参数new_cache.key_buffer_size=20M。指定将table1和table2的索引缓存到new_cache的key_buffer中：

cache index table1,table2 in new_cache

(之前默认的key_buffer为default，现在手动创建的为new_cache)

手动将table1和table2的索引载入到key_buffer中：

load index into cache table1,table2

系统中记录的与Key Cache相关的性能状态参数变量： global status

◆Key_blocks_not_flushed，已经更改但还未刷新到磁盘的DirtyCacheBlock；

◆Key_blocks_unused，目前未被使用的CacheBlock数目；

◆Key_blocks_used，已经使用了的CacheBlock数目；

◆Key_read_requests，CacheBlock被请求读取的总次数；

◆Key_reads，在CacheBlock中找不到需要读取的Key信息后到“.MYI”文件中(磁盘)读取的次数；

◆Key_write_requests，CacheBlock被请求修改的总次数；

◆Key_writes，在CacheBlock中找不到需要修改的Key信息后到“.MYI”文件中读入再修改的次数；

索引命中缓存率：

key_buffer_read_hits=(1-Key_reads/Key_read_requests)*100%

key_buffer_write_hits=(1-Key_writes/Key_write_requests)*100%

该命中率就代表了MyISAM类型表的索引的cache

4.临时表 tmp_table_size (用于排序)

show global status like ‘created_tmp%’

| Variable_name| Value |

| Created_tmp_disk_tables | 21197 | #在磁盘上创建临时表的次数

| Created_tmp_files| 58 | #在磁盘上创建临时文件的次数

| Created_tmp_tables | 1771587 | #使用临时表的总次数

TmpTable的状况主要是用于监控MySQL使用临时表的量是否过多，

是否有临时表过大而不得不从内存中换出到磁盘文件上。

a.如果：

Created_tmp_disk_tables/Created_tmp_tables>10%，则需调大tmp_table_size

比较理想的配置是：

Created_tmp_disk_tables/Created_tmp_tables<=25%

b.如果：

Created_tmp_tables非常大，则可能是系统中排序 *** 作过多，或者是表连接方式不是很优化。

相关参数：

tmp_table_size 内存中，临时表区域总大小

max_heap_table_size 内存中，单个临时表的最大值，超过的部分会放到硬盘上。

5.table cache相关优化：

参数table_open_cache，将表的文件描述符打开，cache在内存中

global status：

open_tables 当前系统中打开的文件描述符的数量

opened_tables 系统打开过的文件描述符的数量

如果：

Opened_tables数量过大，说明配置中table_open_cache值可能太小

比较合适的值为：

Open_tables / Opened_tables * 100% >= 85%

Open_tables / table_open_cache * 100% <= 95%

6.进程的使用情况

在MySQL中，为了尽可能提高客户端请求创建连接这个过程的性能，实现了一个ThreadCache池，

将空闲的连接线程存放在其中，而不是完成请求后就销毁。这样，当有新的连接请求的时候，

MySQL首先会检查ThreadCache池中是否存在空闲连接线程，如果存在则取出来直接使用，

如果没有空闲连接线程，才创建新的连接线程。

参数：thread_cache_size

thread cache 池中存放的最大连接数

调整参考：

在短连接的数据库应用中，数据库连接的创建和销毁是非常频繁的，

如果每次都需要让MySQL新建和销毁相应的连接线程，那么这个资源消耗实际上是非常大的，因此

thread_cache_size的值应该设置的相对大一些，不应该小于应用系统对数据库的实际并发请求数。

参数：thread_stack - 每个连接线程被创建的时候，MySQL给他分配的内存大小，

类似PGA中存放数据的内存部分(不包括排序的空间)

show status like 'connections'

+---------------+-------+

| Variable_name | Value |

+---------------+-------+

| Connections | 80| #接受到的来自客户端的总连接数，包括以前和现在的连接。

+---------------+-------+

show status like 'thread%'

+-------------------+-------+

| Variable_name | Value |

+-------------------+-------+

| Threads_cached| 0 | #当前系统中，缓存的连接数

| Threads_connected | 1 | #当前系统中正连接的线程数

| Threads_created | 77| #创建过的总线程数

| Threads_running | 1 |

+-------------------+-------+

a.如果：

Threads_created 值过大，说明MySQL一直在创建线程，这是比较消耗资源的，应该适当增大

thread_cache_size的值

b.如果：

Threads_cached的值比参数thread_cache_size小太多，则可以适当减小thread_cache_size的值

ThreadCache命中率：

Threads_Cache_Hit=(Connections-Threads_created)/Connections*100%

一般来说，当系统稳定运行一段时间之后，我们的ThreadCache命中率应该保持在90%

左右甚至更高的比率才算正常。

7.查询缓存(Query Cache) -- optional

将客户端的SQL语句(仅限select语句)通过hash计算，放在hash链表中，同时将该SQL的结果集

放在内存中cache。该hash链表中，存放了结果集的内存地址以及所涉及到的所有Table等信息。

如果与该结果集相关的任何一个表的相关信息发生变化后(包扩：数据、索引、表结构等)，

就会导致结果集失效，释放与该结果集相关的所有资源，以便后面其他SQL能够使用。

当客户端有select SQL进入，先计算hash值，如果有相同的，就会直接将结果集返回。

Query Cache的负面影响：

a.使用了Query Cache后，每条select SQL都要进行hash计算，然后查找结果集。对于大量SQL

访问，会消耗过多额外的CPU。

b.如果表变更比较频繁，则会造成结果集失效率非常高。

c.结果集中保存的是整个结果，可能存在一条记录被多次cache的情况，这样会造成内存资源的

过度消耗。

Query Cache的正确使用：

a.根据表的变更情况来选择是否使用Query Cache，可使用SQL Hint：SQL_NO_CACHE和SQL_CACHE

b.对于变更比较少或数据基本处于静态的表，使用SQL_CACHE

c.对于结果集比较大的，使用Query Cache可能造成内存不足，或挤占内存。

可使用1.SQL_NO_CACHE 2.query_cache_limit控制Query Cache的最大结果集(系统默认1M)

mysql>show variables like '%query_cache%'

+------------------------------+---------+

| Variable_name| Value |

+------------------------------+---------+

| have_query_cache | YES | #是否支持Query Cache

| query_cache_limit| 1048576 | #单个结果集的最大值，默认1M

| query_cache_min_res_unit | 4096| #每个结果集存放的最小内存，默认4K

| query_cache_size | 0 | #Query Cache总内存大小，必须是1024的整数倍

| query_cache_type | ON | #ON,OFF,DEMAND(包含SQL_CACHE的查询中才开启)

| query_cache_wlock_invalidate | OFF |

+------------------------------+---------+

#query_cache_wlock_invalidate：

针对于MyISAM存储引擎，设置当有WRITELOCK在某个Table上面的时候，

读请求是要等待WRITE LOCK释放资源之后再查询还是允许直接从QueryCache中读取结果，

默认为FALSE（可以直接从QueryCache中取得结果）

此为部分内容，附上原文出处：http://blog.itpub.net/26355921/viewspace-769393/

in子查询、exists子查询、连接，效率的探讨

以下是SQL的帮助（高级查询优化概念）

Microsoft® SQL Server™ 2000 使用内存中的排序和哈希联接技术执行排序、交集、联合、差分等 *** 作。SQL Server 利用这种类型的查询计划支持垂直表分区，有时称其为分列存储。

SQL Server 使用三种类型的联接 *** 作：

嵌套循环联接

合并联接

哈希联接

如果一个联接输入很小（比如不到 10 行），而另一个联接输入很大而且已在其联接列上创建索引，则索引嵌套循环是最快的联接 *** 作，因为它们需要最少的 I/O 和最少的比较。有关嵌套循环的更多信息，请参见了解嵌套循环联接。

如果两个联接输入并不小但已在二者联接列上排序（例如，如果它们是通过扫描已排序的索引获得的），则合并联接是最快的联接 *** 作。如果两个联接输入都很大，而且这两个输入的大小差不多，则预先排序的合并联接提供的性能与哈希联接相似。然而，如果两个输入的大小相差很大，则哈希联接 *** 作通常快得多。有关更多信息，请参见了解合并联接。

哈希联接可以有效处理很大的、未排序的非索引输入。它们对复杂查询的中间结果很有用，因为：

中间结果未经索引（除非已经显式保存到磁盘上然后创建索引），而且生成时通常不为查询计划中的下一个 *** 作进行适当的排序。

查询优化器只估计中间结果的大小。由于估计的值在复杂查询中可能有很大的误差，因此如果中间结果比预期的大得多，则处理中间结果的算法不仅必须有效而且必须适度弱化。

哈希联接使得对非规范化的使用减少。非规范化一般通过减少联接 *** 作获得更好的性能，尽管这样做有冗余之险（如不一致的更新）。哈希联接则减少使用非规范化的需要。哈希联接使垂直分区（用单独的文件或索引代表单个表中的几组列）得以成为物理数据库设计的可行选项。有关更多信息，请参见了解哈希联接。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/7454430.html

MySql删除重复记录问题

发表评论

评论列表（0条）