重复的数据可能有这样两种情况,第一种时表中只有某些字段一样,第二种是两行记录完全一样。Oracle数据库重复数据删除技术有如下优势:更大的备份容量、数据能得到持续验证、有更高的数据恢复服务水平、方便实现备份数据的容灾。
一、删除部分字段重复数据先来谈谈如何查询重复的数据吧。
下面语句可以查询出那些数据是重复的:
select
字段1,字段2,count()
from
表名
group
by
字段1,字段2
having
count()
>
1
将上面的>号改为=号就可以查询出没有重复的数据了。
想要删除这些重复的数据,可以使用下面语句进行删除
delete
from
表名
a
where
字段1,字段2
in
(select
字段1,字段2,count()
from
表名
group
by
字段1,字段2
having
count()
>
1)
上面的语句非常简单,就是将查询到的数据删除掉。不过这种删除执行的效率非常低,对于大数据量来说,可能会将数据库吊死。所以我建议先将查询到的重复的数据插入到一个临时表中,然后对进行删除,这样,执行删除的时候就不用再进行一次查询了。如下:
CREATE
TABLE
临时表
AS
(select
字段1,字段2,count()
from
表名
group
by
字段1,字段2
having
count()
>
1)
上面这句话就是建立了临时表,并将查询到的数据插入其中。
下面就可以进行这样的删除 *** 作了:
delete
from
表名
a
where
字段1,字段2
in
(select
字段1,字段2
from
临时表);
这种先建临时表再进行删除的 *** 作要比直接用一条语句进行删除要高效得多。
这个时候,大家可能会跳出来说,什么你叫我
首先是将数据库里边的重复记录删掉,我看网上有好多答案是这样的:
1 delete from people
2 where peopleId in (select peopleId from people group by peopleId having count(peopleId) > 1)
3 and rowid not in (select min(rowid) from people group by peopleId having count(peopleId )>1)
但其实我每次运行这条语句都是行不通的,会报错:
SQL 错误 [1093] [HY000]: You can't specify target table 'test1' for update in FROM clause
javasqlSQLException: You can't specify target table 'test1' for update in FROM clause
去网上查过好像是说update以及delete *** 作没办法跟查询 *** 作一起做的,我看过有的更新的跟查询的一起做的好像是给查出来的那部分起个别名,然后进行更新就可以了,但是删除这个我起了别名也不对,不知道是我写错还是不行,我就跳过这个方法了。
我用的方法是:先查出数据库中的重复记录的数据中的一条,这个不难,很简单的,sql语句如下:
select from test1 where name in (select name from test1 group by name having count(name) > 1)
and id in (select min(id) from test1 group by name having count(name)>1)
结果如下:
id |name |phont |
---|--------|-------|
1 |name22 |123 |
3 |name222 |123 |
5 |name2 |123123 |
8 |123 |123123 |
11 |name1 |123123 |
13 |111 |1231 |
14 |112 |1232 |
这些都是不重复的,换句话说都是要保留的,不被删掉的,而其余与这些结果中name相同的应该被删掉。
也就是说将上边那个sql语句id后边加一个not ,查出来的结果就是要删掉的:结果如下
id |name |phont |
---|--------|-------|
2 |name22 |123 |
4 |name222 |123 |
6 |name2 |123123 |
7 |name2 |NULL |
9 |123 |123123 |
10 |123 |123123 |
12 |name1 |123123 |
15 |111 |1233 |
16 |112 |1234 |
17 |111 |1235 |
18 |112 |1236 |
我把这些需要删掉的存到另外一个表里,然后我新建一个test2表,结构复制test1的结构就好了
1 CREATE TABLE `test2` (2 `id` int(11) NOT NULL AUTO_INCREMENT,3 `name` varchar(50) DEFAULT NULL,4 `phont` varchar(50) DEFAULT NULL,5 PRIMARY KEY (`id`)6 ) ENGINE=InnoDB DEFAULT CHARSET=utf8
然后插入语句是:
1 insert into test2(2 select from testtest1 where name in (select name from testtest1 group by name having count(name) > 1)
3 and id not in (select min(id) from testtest1 group by name having count(name)>1)
4 )
然后test2的表里的数据就是下图这样的:
那接下来做的就是删掉test1表里边与test2表的id相同的数据。
1 delete a from test1 a, test2 b where aid = bid ;
这样,test1里边的数据就变成了:
这样的结果就是完全不重复的,但是我还想要他们的id是连续的,而不是这样的断开的。
我的做法是将这个表的除掉id之外的所有字段查出插入到另外一个表test3中,当然,test3要设置id为自增主键,但是不插入id,让它自增,就连续了
当然要新建表test3啦,不过把上边新建的test2那个复制下来改名字为test3就好啦。
然后插入:
1 insert into test3(name, phont)2 (select name, phont from test2)
test3表里的结果就是:
这样就可以把test3改成你想要的名字,然后删掉test1和test2了,大功告成~
不过感觉还可以就是将已经删掉重复数据的表test1的数据全都导出来,一般的数据库连接工具都有这样的功能,导成sql格式的,然后新建一个表,比test1多增一个自增主键字段叫NewId字段,但是Id字段不能再自增了,然后将导成的sql文件导入,不过那个sql文件可能要编辑一下,改一下自增主键id变为普通的字段什么的,然后到新表了之后,删掉id字段,修改NewId为Id,应该也可以,但是这个方法我没试过,原先预想过要这么做但是没有这么做,估计以后可以试试,但是感觉两种的麻烦程度都差不多啊,但是如果将sql语句写下来之后可能还是第一种方法比较快一点吧。
--按某一字段分组取最大(小)值所在行的数据
/
数据如下:
name val memo
a 2 a2(a的第二个值)
a 1 a1--a的第一个值
a 3 a3:a的第三个值
b 1 b1--b的第一个值
b 3 b3:b的第三个值
b 2 b2b2b2b2
b 4 b4b4
b 5 b5b5b5b5b5
/
--创建表并插入数据:
create table tb(name varchar(10),val int,memo varchar(20))
insert into tb values('a', 2, 'a2(a的第二个值)')
insert into tb values('a', 1, 'a1--a的第一个值')
insert into tb values('a', 3, 'a3:a的第三个值')
insert into tb values('b', 1, 'b1--b的第一个值')
insert into tb values('b', 3, 'b3:b的第三个值')
insert into tb values('b', 2, 'b2b2b2b2')
insert into tb values('b', 4, 'b4b4')
insert into tb values('b', 5, 'b5b5b5b5b5')
go
--一、按name分组取val最大的值所在行的数据。
--方法1:
select a from tb a where val = (select max(val) from tb where name = aname) order by aname
--方法2:
select a from tb a where not exists(select 1 from tb where name = aname and val > aval)
--方法3:
select a from tb a,(select name,max(val) val from tb group by name) b where aname = bname and aval = bval order by aname
--方法4:
select a from tb a inner join (select name , max(val) val from tb group by name) b on aname = bname and aval = bval order by aname
--方法5
select a from tb a where 1 > (select count() from tb where name = aname and val > aval ) order by aname
/
name val memo
---------- ----------- --------------------
a 3 a3:a的第三个值
b 5 b5b5b5b5b5
/
--二、按name分组取val最小的值所在行的数据。
--方法1:
select a from tb a where val = (select min(val) from tb where name = aname) order by aname
--方法2:
select a from tb a where not exists(select 1 from tb where name = aname and val < aval)
--方法3:
select a from tb a,(select name,min(val) val from tb group by name) b where aname = bname and aval = bval order by aname
--方法4:
select a from tb a inner join (select name , min(val) val from tb group by name) b on aname = bname and aval = bval order by aname
--方法5
select a from tb a where 1 > (select count() from tb where name = aname and val < aval) order by aname
/
name val memo
---------- ----------- --------------------
a 1 a1--a的第一个值
b 1 b1--b的第一个值
/
--三、按name分组取第一次出现的行所在的数据。
select a from tb a where val = (select top 1 val from tb where name = aname) order by aname
/
name val memo
---------- ----------- --------------------
a 2 a2(a的第二个值)
b 1 b1--b的第一个值
/
--四、按name分组随机取一条数据。
select a from tb a where val = (select top 1 val from tb where name = aname order by newid()) order by aname
/
name val memo
---------- ----------- --------------------
a 1 a1--a的第一个值
b 5 b5b5b5b5b5
/
--五、按name分组取最小的两个(N个)val
select a from tb a where 2 > (select count() from tb where name = aname and val < aval ) order by aname,aval
select a from tb a where val in (select top 2 val from tb where name=aname order by val) order by aname,aval
select a from tb a where exists (select count() from tb where name = aname and val < aval having Count() < 2) order by aname
/
name val memo
---------- ----------- --------------------
a 1 a1--a的第一个值
a 2 a2(a的第二个值)
b 1 b1--b的第一个值
b 2 b2b2b2b2
/
--六、按name分组取最大的两个(N个)val
select a from tb a where 2 > (select count() from tb where name = aname and val > aval ) order by aname,aval
select a from tb a where val in (select top 2 val from tb where name=aname order by val desc) order by aname,aval
select a from tb a where exists (select count() from tb where name = aname and val > aval having Count() < 2) order by aname
/
name val memo
---------- ----------- --------------------
a 2 a2(a的第二个值)
a 3 a3:a的第三个值
b 4 b4b4
b 5 b5b5b5b5b5
/
--七,如果整行数据有重复,所有的列都相同。
/
数据如下:
name val memo
a 2 a2(a的第二个值)
a 1 a1--a的第一个值
a 1 a1--a的第一个值
a 3 a3:a的第三个值
a 3 a3:a的第三个值
b 1 b1--b的第一个值
b 3 b3:b的第三个值
b 2 b2b2b2b2
b 4 b4b4
b 5 b5b5b5b5b5
/
--在sql server 2000中只能用一个临时表来解决,生成一个自增列,先对val取最大或最小,然后再通过自增列来取数据。
--创建表并插入数据:
create table tb(name varchar(10),val int,memo varchar(20))
insert into tb values('a', 2, 'a2(a的第二个值)')
insert into tb values('a', 1, 'a1--a的第一个值')
insert into tb values('a', 1, 'a1--a的第一个值')
insert into tb values('a', 3, 'a3:a的第三个值')
insert into tb values('a', 3, 'a3:a的第三个值')
insert into tb values('b', 1, 'b1--b的第一个值')
insert into tb values('b', 3, 'b3:b的第三个值')
insert into tb values('b', 2, 'b2b2b2b2')
insert into tb values('b', 4, 'b4b4')
insert into tb values('b', 5, 'b5b5b5b5b5')
go
select , px = identity(int,1,1) into tmp from tb
select mname,mval,mmemo from
(
select t from tmp t where val = (select min(val) from tmp where name = tname)
) m where px = (select min(px) from
(
select t from tmp t where val = (select min(val) from tmp where name = tname)
) n where nname = mname)
drop table tb,tmp
/
name val memo
---------- ----------- --------------------
a 1 a1--a的第一个值
b 1 b1--b的第一个值
(2 行受影响)
/
--在sql server 2005中可以使用row_number函数,不需要使用临时表。
--创建表并插入数据:
create table tb(name varchar(10),val int,memo varchar(20))
insert into tb values('a', 2, 'a2(a的第二个值)')
insert into tb values('a', 1, 'a1--a的第一个值')
insert into tb values('a', 1, 'a1--a的第一个值')
insert into tb values('a', 3, 'a3:a的第三个值')
insert into tb values('a', 3, 'a3:a的第三个值')
insert into tb values('b', 1, 'b1--b的第一个值')
insert into tb values('b', 3, 'b3:b的第三个值')
insert into tb values('b', 2, 'b2b2b2b2')
insert into tb values('b', 4, 'b4b4')
insert into tb values('b', 5, 'b5b5b5b5b5')
go
select mname,mval,mmemo from
(
select , px = row_number() over(order by name , val) from tb
) m where px = (select min(px) from
(
select , px = row_number() over(order by name , val) from tb
) n where nname = mname)
drop table tb
/
name val memo
---------- ----------- --------------------
a 1 a1--a的第一个值
b 1 b1--b的第一个值
(2 行受影响)
/
有两个意义上的重复记录
①完全重复的记录,也即所有字段均重复的记录。
②部分关键字段重复的记录,比如Name字段重复,而其他字段不一定重复或都重复可以忽略。
1、对于第一种重复,比较容易解决,使用
select distinct from tableName这样就可以得到无重复记录的结果集。然后通过临时表实现对数据的维护。
select distinct into #Tmp from tableNamedrop table tableName
select into tableName from #Tmp
drop table #Tmp
#Tmp为什么系统参数,tableName为要 *** 作的表名。
2、第二类重复问题通常要求保留重复记录中的第一条记录, *** 作方法如下:
假设有重复的字段为Name,Address,要求得到这两个字段唯一的结果集
select identity(int,1,1) as autoID, into #Tmp from tableNameselect min(autoID) as autoID into #Tmp2 from #Tmp group by Name,autoID
select from #Tmp where autoID in(select autoID from #tmp2)
最后一个select即得到了Name,Address不重复的结果集(但多了一个autoID字段,实际写时可以写在select子句中省去此列)
以上就是关于Oracle数据库重复数据删除的几种方法全部的内容,包括:Oracle数据库重复数据删除的几种方法、mysql 如何删除重复的数据、数据库怎么去某一字段的重复数据等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)