MySql删除重复记录问题

MySql删除重复记录问题,第1张

mysql的删除动作不能带有本表的查询动作,意思是你删除A表的东西不能以A表的信息为条件,如下不可以:

delete from A where aa in (select bb from A)

你可以通过建另外一张表,两张表匹配关系 *** 作,如:

create table t_b as select * from t_a group by empno

delete from t_a where empid not exists (select 1 from t_b where t_a.empid=t_b.empid)

MySQL内存参数配置推荐:https://tools.percona.com/wizard

1.慢查询日志:

slow_launch_time=2 查询大于某个时间的值(单位:s)

slow_query_log=on/off 开启关闭慢查询日志

slow_query_log_file=/opt/data/host-slow.log 慢查询日志位置

2.连接数:

max_connections MySQL最大连接数

back_log 当连接数满了后,设置一个值,允许多少个连接进入等待堆栈

max_connect_errors 账号连接到服务器允许的错误次数

connect_timeout 一个连接报文的最大时间(单位:s)

skip-name-resolve 加入my.cnf即可,MySQL在收到连接请求的时候,会根据请求包

中获得的ip来反向追查请求者的主机名。然后再根据返回

的主机名又一次去获取ip。如果两次获得的ip相同,那么连接就成功建立了。

加了次参数,即可省去这个步骤

NOTES:

查询当前连接数:show global status like 'connections'

3.key_buffer_size 索引缓存大小,是对MyISAM表性能影响最大的一个参数

32bit平台上,此值不要超过2GB,64bit平台不用做此限制,但也不要超过4GB

根据3点计算:

a.系统索引总大小

b.系统物理内存

c.系统当前keycache命中率

粗略计算公式:

Key_Size =key_number*(key_length+4)/0.67

Max_key_buffer_size

Threads_Usage = max_connections * (sort_buffer_size + join_buffer_size +

read_buffer_size+read_rnd_buffer_size+thread_stack)

key_cache_block_size ,是key_buffer缓存块的单位长度,以字节为单位,默认值为1024。

key_cache_division_limit 控制着缓存块重用算法。默认值为100,此值为key_buffer_size中暖链所占的大小百分比(其中有暖链和热链),100意味着全是暖链。(类似于Oracle Data Buffer Cache中的default、keep、recycle)

key_cache_age_threshold 如果key_buffer里的热链里的某个缓存块在这个变量所设定的时间里没有被访问过,MySQL服务器就会把它调整到暖链里去。这个参数值越大,缓存块在热链里停留的时间就越长。

这个参数默认值为 300,最小值为100。

Myisam索引默认是缓存在原始key_buffer中的,我们可以手动创建新的key_buffer,如在my.cnf中加入参数new_cache.key_buffer_size=20M。指定将table1和table2的索引缓存到new_cache的key_buffer中:

cache index table1,table2 in new_cache

(之前默认的key_buffer为default,现在手动创建的为new_cache)

手动将table1和table2的索引载入到key_buffer中:

load index into cache table1,table2

系统中记录的与Key Cache相关的性能状态参数变量: global status

◆Key_blocks_not_flushed,已经更改但还未刷新到磁盘的DirtyCacheBlock;

◆Key_blocks_unused,目前未被使用的CacheBlock数目;

◆Key_blocks_used,已经使用了的CacheBlock数目;

◆Key_read_requests,CacheBlock被请求读取的总次数;

◆Key_reads,在CacheBlock中找不到需要读取的Key信息后到“.MYI”文件中(磁盘)读取的次数;

◆Key_write_requests,CacheBlock被请求修改的总次数;

◆Key_writes,在CacheBlock中找不到需要修改的Key信息后到“.MYI”文件中读入再修改的次数;

索引命中缓存率:

key_buffer_read_hits=(1-Key_reads/Key_read_requests)*100%

key_buffer_write_hits=(1-Key_writes/Key_write_requests)*100%

该命中率就代表了MyISAM类型表的索引的cache

4.临时表 tmp_table_size (用于排序)

show global status like ‘created_tmp%’

| Variable_name| Value |

| Created_tmp_disk_tables | 21197 | #在磁盘上创建临时表的次数

| Created_tmp_files| 58 | #在磁盘上创建临时文件的次数

| Created_tmp_tables | 1771587 | #使用临时表的总次数

TmpTable的状况主要是用于监控MySQL使用临时表的量是否过多,

是否有临时表过大而不得不从内存中换出到磁盘文件上。

a.如果:

Created_tmp_disk_tables/Created_tmp_tables>10%,则需调大tmp_table_size

比较理想的配置是:

Created_tmp_disk_tables/Created_tmp_tables<=25%

b.如果:

Created_tmp_tables非常大 ,则可能是系统中排序 *** 作过多,或者是表连接方式不是很优化。

相关参数:

tmp_table_size 内存中,临时表区域总大小

max_heap_table_size 内存中,单个临时表的最大值,超过的部分会放到硬盘上。

5.table cache相关优化 :

参数table_open_cache,将表的文件描述符打开,cache在内存中

global status:

open_tables 当前系统中打开的文件描述符的数量

opened_tables 系统打开过的文件描述符的数量

如果:

Opened_tables数量过大,说明配置中table_open_cache值可能太小

比较合适的值为:

Open_tables / Opened_tables * 100% >= 85%

Open_tables / table_open_cache * 100% <= 95%

6.进程的使用情况

在MySQL中,为了尽可能提高客户端请求创建连接这个过程的性能,实现了一个ThreadCache池,

将空闲的连接线程存放在其中,而不是完成请求后就销毁。这样,当有新的连接请求的时候,

MySQL首先会检查ThreadCache池中是否存在空闲连接线程,如果存在则取出来直接使用,

如果没有空闲连接线程,才创建新的连接线程。

参数:thread_cache_size

thread cache 池中存放的最大连接数

调整参考:

在短连接的数据库应用中,数据库连接的创建和销毁是非常频繁的,

如果每次都需要让MySQL新建和销毁相应的连接线程,那么这个资源消耗实际上是非常大的,因此

thread_cache_size的值应该设置的相对大一些,不应该小于应用系统对数据库的实际并发请求数。

参数:thread_stack - 每个连接线程被创建的时候,MySQL给他分配的内存大小,

类似PGA中存放数据的内存部分(不包括排序的空间)

show status like 'connections'

+---------------+-------+

| Variable_name | Value |

+---------------+-------+

| Connections | 80| #接受到的来自客户端的总连接数,包括以前和现在的连接。

+---------------+-------+

show status like 'thread%'

+-------------------+-------+

| Variable_name | Value |

+-------------------+-------+

| Threads_cached| 0 | #当前系统中,缓存的连接数

| Threads_connected | 1 | #当前系统中正连接的线程数

| Threads_created | 77| #创建过的总线程数

| Threads_running | 1 |

+-------------------+-------+

a.如果:

Threads_created 值过大,说明MySQL一直在创建线程,这是比较消耗资源的,应该适当增大

thread_cache_size的值

b.如果:

Threads_cached的值比参数thread_cache_size小太多,则可以适当减小thread_cache_size的值

ThreadCache命中率:

Threads_Cache_Hit=(Connections-Threads_created)/Connections*100%

一般来说,当系统稳定运行一段时间之后,我们的ThreadCache命中率应该保持在90%

左右甚至更高的比率才算正常。

7.查询缓存(Query Cache) -- optional

将客户端的SQL语句(仅限select语句)通过hash计算,放在hash链表中,同时将该SQL的结果

放在内存中cache。该hash链表中,存放了结果集的内存地址以及所涉及到的所有Table等信息。

如果与该结果集相关的任何一个表的相关信息发生变化后(包扩:数据、索引、表结构等),

就会导致结果集失效,释放与该结果集相关的所有资源,以便后面其他SQL能够使用。

当客户端有select SQL进入,先计算hash值,如果有相同的,就会直接将结果集返回。

Query Cache的负面影响:

a.使用了Query Cache后,每条select SQL都要进行hash计算,然后查找结果集。对于大量SQL

访问,会消耗过多额外的CPU。

b.如果表变更比较频繁,则会造成结果集失效率非常高。

c.结果集中保存的是整个结果,可能存在一条记录被多次cache的情况,这样会造成内存资源的

过度消耗。

Query Cache的正确使用:

a.根据表的变更情况来选择是否使用Query Cache,可使用SQL Hint:SQL_NO_CACHE和SQL_CACHE

b.对于 变更比较少 或 数据基本处于静态 的表,使用SQL_CACHE

c.对于结果集比较大的,使用Query Cache可能造成内存不足,或挤占内存。

可使用1.SQL_NO_CACHE 2.query_cache_limit控制Query Cache的最大结果集(系统默认1M)

mysql>show variables like '%query_cache%'

+------------------------------+---------+

| Variable_name| Value |

+------------------------------+---------+

| have_query_cache | YES | #是否支持Query Cache

| query_cache_limit| 1048576 | #单个结果集的最大值,默认1M

| query_cache_min_res_unit | 4096| #每个结果集存放的最小内存,默认4K

| query_cache_size | 0 | #Query Cache总内存大小,必须是1024的整数倍

| query_cache_type | ON | #ON,OFF,DEMAND(包含SQL_CACHE的查询中才开启)

| query_cache_wlock_invalidate | OFF |

+------------------------------+---------+

#query_cache_wlock_invalidate:

针对于MyISAM存储引擎,设置当有WRITELOCK在某个Table上面的时候,

读请求是要等待WRITE LOCK释放资源之后再查询还是允许直接从QueryCache中读取结果,

默认为FALSE(可以直接从QueryCache中取得结果)

此为部分内容,附上原文出处:http://blog.itpub.net/26355921/viewspace-769393/

in子查询、exists子查询、连接,效率的探讨

以下是SQL的帮助 (高级查询优化概念)

Microsoft® SQL Server™ 2000 使用内存中的排序和哈希联接技术执行排序、交集、联合、差分等 *** 作。SQL Server 利用这种类型的查询计划支持垂直表分区,有时称其为分列存储。

SQL Server 使用三种类型的联接 *** 作:

嵌套循环联接

合并联接

哈希联接

如果一个联接输入很小(比如不到 10 行),而另一个联接输入很大而且已在其联接列上创建索引,则索引嵌套循环是最快的联接 *** 作,因为它们需要最少的 I/O 和最少的比较。有关嵌套循环的更多信息,请参见了解嵌套循环联接。

如果两个联接输入并不小但已在二者联接列上排序(例如,如果它们是通过扫描已排序的索引获得的),则合并联接是最快的联接 *** 作。如果两个联接输入都很大,而且这两个输入的大小差不多,则预先排序的合并联接提供的性能与哈希联接相似。然而,如果两个输入的大小相差很大,则哈希联接 *** 作通常快得多。有关更多信息,请参见了解合并联接。

哈希联接可以有效处理很大的、未排序的非索引输入。它们对复杂查询的中间结果很有用,因为:

中间结果未经索引(除非已经显式保存到磁盘上然后创建索引),而且生成时通常不为查询计划中的下一个 *** 作进行适当的排序。

查询优化器只估计中间结果的大小。由于估计的值在复杂查询中可能有很大的误差,因此如果中间结果比预期的大得多,则处理中间结果的算法不仅必须有效而且必须适度弱化。

哈希联接使得对非规范化的使用减少。非规范化一般通过减少联接 *** 作获得更好的性能,尽管这样做有冗余之险(如不一致的更新)。哈希联接则减少使用非规范化的需要。哈希联接使垂直分区(用单独的文件或索引代表单个表中的几组列)得以成为物理数据库设计的可行选项。有关更多信息,请参见了解哈希联接。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/7454430.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-05
下一篇 2023-04-05

发表评论

登录后才能评论

评论列表(0条)

保存