如何查找和删除数据库中的重复数据？_系统运维

法一:

用Group

by语句

此查找很快的select

count(num),

max(name)

from

student

–查找表中num列重复的，列出重复的记录数，并列出他的name属性group

numhaving

count(num)

–按num分组后找出表中num列重复，即出现次数大于一次delete

from

student(上面Select的)这样的话就把所有重复的都删除了。—–慎重法二:当表比较大(例如10万条以上)时,这个方法的效率之差令人无法忍受,需要另想办法:—-

执行下面SQL语句后就可以显示所有DRAWING和DSNO相同且重复的记录SELECT

FROM

EM5_PIPE_PREFABWHERE

ROWID!=(SELECT

MAX(ROWID)

FROM

EM5_PIPE_PREFAB

–D相当于First,SecondWHERE

EM5_PIPE_PREFAB.DRAWING=D.DRAWING

ANDEM5_PIPE_PREFAB.DSNO=D.DSNO)—-

执行下面SQL语句后就可以删除所有DRAWING和DSNO相同且重复的记录DELETE

FROM

EM5_PIPE_PREFABWHERE

ROWID!=(SELECT

MAX(ROWID)

FROM

EM5_PIPE_PREFAB

DWHERE

EM5_PIPE_PREFAB.DRAWING=D.DRAWING

ANDEM5_PIPE_PREFAB.DSNO=D.DSNO)法一:

用Group

by语句

此查找很快的select

count(num),

max(name)

from

student

–查找表中num列重复的，列出重复的记录数，并列出他的name属性group

numhaving

count(num)

–按num分组后找出表中num列重复，即出现次数大于一次delete

from

执行下面SQL语句后就可以显示所有DRAWING和DSNO相同且重复的记录SELECT

FROM

EM5_PIPE_PREFABWHERE

ROWID!=(SELECT

MAX(ROWID)

FROM

EM5_PIPE_PREFAB

–D相当于First,SecondWHERE

EM5_PIPE_PREFAB.DRAWING=D.DRAWING

ANDEM5_PIPE_PREFAB.DSNO=D.DSNO)—-

执行下面SQL语句后就可以删除所有DRAWING和DSNO相同且重复的记录DELETE

FROM

EM5_PIPE_PREFABWHERE

ROWID!=(SELECT

MAX(ROWID)

FROM

EM5_PIPE_PREFAB

DWHERE

EM5_PIPE_PREFAB.DRAWING=D.DRAWING

ANDEM5_PIPE_PREFAB.DSNO=D.DSNO)

cat file.csv | awk -F '\t' '{print $2}'

'\t'指的是file.csv不同列以'\t'分割，如果的是以其他符号分割，换成其她符号；

'{print $2}'是指取第2列，此处从1开始计数，第1列，第2列；

一般去重之前要进行排序

cat file.csv | awk -F '\t' '{print $2}' | sort | uniq

前半部分与命令1一样，后面加上| sort | uniq

比如通过命令2发现，第2列取值有两种，分别是'neg'和‘pos’，那么我想知道有多少行的第2列取值为'pos'，多少行的第2列取值为'neg'。

cat file.csv | awk -F '\t' '{print $2}' | grep -o 'neg'| wc -l

前半部分与命令1一样，后面加上 | grep -o 'neg'| wc -l

grep -o 'neg'就是取出取值为'neg'的行

wc -l 是计数有多少行

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/9034282.html

如何查找和删除数据库中的重复数据？

发表评论

评论列表（0条）