怎么删除重复的Mysql数据

怎么删除重复的Mysql数据,第1张

MYSQL里有五百万数据,但大多是重复的,真实的就180万,于是想怎样把这些重复的数据搞出来,在网上找了一圈,好多是用NOT IN这样的代码,这样效率很低,自己琢磨组合了一下,找到一个高效的处理方式,用这个方式,五百万数据,十来分钟就全部去除重复了,请各位参考。

第一步:从500万数据表data_content_152里提取出不重复的字段SFZHM对应的ID字段到TMP3表

1 create table tmp3 as select min(id) as col1 from data_content_152 group by SFZHM;

第二步:创建新表RES

1234 CREATE TABLE `res` (`id` int(11),`sfz` char(20)) ENGINE=MyISAM;

第三步:把TMP3表ID对应到data_content_152里需要提取的数据添加到RES表的SFZ字段

1 INSERT INTO res (sfz) SELECT sfzhm FROM data_content_152,tmp3 where data_content_152id=tmp3col1

至此,就在MYSQL里实现了,给数据表data_content_152完全删除重复数据,把去重复后的数据导入到RES表。

1 查询需要删除的记录,会保留一条记录。

select aid,asubject,aRECEIVER from test1 a left join (select csubject,cRECEIVER ,max(cid) as bid from test1 c where status=0 GROUP BY RECEIVER,SUBJECT having count(1) >1) b on aid< bbid where asubject=bsubject and aRECEIVER = bRECEIVER and aid < bbid

2 删除重复记录,只保留一条记录。注意,subject,RECEIVER 要索引,否则会很慢的。

delete a from test1 a, (select csubject,cRECEIVER ,max(cid) as bid from test1 c where status=0 GROUP BY RECEIVER,SUBJECT having count(1) >1) b where asubject=bsubject and aRECEIVER = bRECEIVER and aid < bbid;

有两个意义上的重复记录,一是完全重复的记录,也即所有字段均重复的记录,二是部分关键字段重复的记录,比如Name字段重复,而其他字段不一定重复或都重复可以忽略。

1、对于第一种重复,比较容易解决,使用

select distinct from tableName

就可以得到无重复记录的结果集。

如果该表需要删除重复的记录(重复记录保留1条),可以按以下方法删除

复制代码代码如下:

select distinct into #Tmp from tableName

drop table tableName

select into tableName from #Tmp

drop table #Tmp

发生这种重复的原因是表设计不周产生的,增加唯一索引列即可解决。

2、这类重复问题通常要求保留重复记录中的第一条记录, *** 作方法如下

假设有重复的字段为Name,Address,要求得到这两个字段唯一的结果集

复制代码代码如下:

select identity(int,1,1) as autoID, into #Tmp from tableName

select min(autoID) as autoID into #Tmp2 from #Tmp group by Name,autoID

select from #Tmp where autoID in(select autoID from #tmp2)

1查询出重复记录

select 重复记录字段 form 数据表 group by houseno having count(重复记录字段)>1

2重复记录只显示一条ID值最小或最大的记录

select id, from 数据表 where houseno (select 重复记录字段 form 数据表 group by 重复记录

字段 having count(重复记录字段)>1 )

这样把houseno重复的的ID值全部显示出,那么我们如何只显示一条id最小或最大的记录呢?

关键是在上面sql的where子句中select 重复记录字段 form 数据表 group by 重复记录字段 having count(

重复记录字段)>1

修改为

select min(id) form 数据表 group by 重复记录字段 having count(重复记录字段)>1

这样就查询重复记录字段中ID最小值

那么上面的语句就是

select id, from 数据表 where houseno (select min(id) form 数据表 group by 重复记录字段

having count(重复记录字段)>1 )

3至于对重复记录执行delete update 就非常简单啦

例如只保留最小id的一条

delete 数据表 where id in (select max(id ) from 数据包 group by 重复记录字段 having count(重复记录字段)>1)

update *** 作不说啦都一样。

4group by 字段 having count与distinct的区别

distct查询显示全部字段值都是一样的唯一,一条记录

例如

id name sex

43 111 1

44 111 1

45 111 2

46 222 2

47 222 2

48 333 1

49 333 1

SELECT distinct

[name]

,[sex]

FROM [database][dbo][a]

要想实现上面的要去掉 sex字段 改成

SELECT distinct

[name]

FROM [database][dbo][a]

但要想取得重复ID最小值不建议用distinct。

总结:

对于重复记录关键是查出 :采用group by 字段 having count(字段)>1

取得最小id的一条(很关键) :采用min(id)

以上就是关于怎么删除重复的Mysql数据全部的内容,包括:怎么删除重复的Mysql数据、mysql如何去掉数据库中重复记录、ACCESS数据库内如何去除某字段重复记录等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/sjk/9327395.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-27
下一篇 2023-04-27

发表评论

登录后才能评论

评论列表(0条)

保存