如何删除数据库中的冗余数据(2)_工具

它将冗余数据选择到一个游标中并根据（LastName FirstName）来分组（在我们这个方案中）然后打开游标然后循环地取出每一行然后用与先前的取出的键值进行比较如果这是第一次取出这个值或者这个值不是冗余键那么跳过这个记录然后取下一个不然的话这就是这个组中的冗余记录所以删掉它．

让我们运行一下这个存储过程

BEGIN

DeleteDuplicates;

END;

SELECT LastName FirstName COUNT()

FROM Customers

GROUP BY LastName FirstName

HAVING COUNT() > ;

最后一个查询语句没有返回值所以冗余数据没有了从表中取冗余数据的过程完全是由定义在csr_Duplicates 这个游标中的SQL语句来实现的 PL／SQl只是用来实现删除冗余数那么能不能完全用SQL语句来实现呢？

二．SQL解决方案使用RANK（）删除冗余数据Oracle i分析函数RANK（）来枚举每一个组中的元素在我们的方案中我们应用这个方案我们使用这个函数动态的把冗余数据连续的排列起来加上编号组由Partintion　by　这个语句来分开然后用Order　by　进行分组SELECT ID LastName FirstName RANK() OVER (PARTITION BY LastName

FirstName ORDER BY ID) SeqNumber

FROM Customers

ORDER BY LastName FirstName;

SQL

Listing Output of single SQL statement that uses RANK()

显示的是根据记录的条数的个数来显示尤其对于冗余数据

ID LASTNAME FIRSTNAME SEQNUMBER

Blake Becky

Blue Don

Bradley Tom

Chang Jim

Griffith David

Hill Larry

King Chuck

Krieger Jeff

Loney Julie

Lord Don

Mason Paul

Monroe John

Simon Michael

Stone Tony

我们可以看一到 SeqNumber这一列中的数值冗余数据是根据ID号由小到大进行的排序所有的冗余数据的SqlNumber都大于一所有的非冗余数据都等于一所以我们取自己所需删除那么没用的SELECT ID LastName FirstName

FROM

(SELECT ID LastName FirstName RANK() OVER (PARTITION BY LastName

FirstName ORDER BY ID) AS SeqNumber

FROM Customers)

WHERE SeqNumber > ;

SQL

Listing 冗余键的键值

有七行必须被删除

ID LASTNAME FIRSTNAME

Krieger Jeff

Simon Michael

Stone Tony

rows selected 这显示有七行需要删除还是用上一个表我测试了一下这个代码它用了77秒种就删除了所有的数据准备好了用Sql语句来删除冗余数据版本一它执行了秒

DELETE

FROM CUSTOMERS

WHERE ID IN

(SELECT ID

FROM

(SELECT ID LastName FirstName RANK() OVER (PARTITION BY LastName

FirstName ORDER BY ID) AS SeqNumber

FROM Customers)

WHERE SeqNumber > );

我们可以看到最后的两行语句对表中的数据进行了排序这不是有效的所以我们来优化一下最后一个查询语句把Rank（）函数应用到只含有冗余数据的组而不是所有的列下面这个语句是比较有效率的虽然它不像上一个查询那样精简SELECT ID LastName FirstName

FROM

(SELECT ID LastName FirstName RANK() OVER (PARTITION BY LastName

FirstName ORDER BY ID) AS SeqNumber

FROM

(SELECT ID LastName FirstName

FROM Customers

WHERE (LastName FirstName) IN (SELECT LastName FirstName

FROM Customers

GROUP BY LastName FirstName

HAVING COUNT() > )))

WHERE SeqNumber > ;

选择冗余数据只用了26秒钟这样就提高了％的性能这样就提高了将这个作为子查询的删除查询的效率

DELETE

FROM Customers

WHERE ID IN

(SELECT ID

FROM

(SELECT ID LastName FirstName RANK() OVER (PARTITION BY LastName

FirstName ORDER BY ID) AS SeqNumber

FROM

(SELECT ID LastName FirstName

FROM Customers

WHERE (LastName FirstName) IN (SELECT LastName FirstName

FROM Customers

GROUP BY LastName FirstName

HAVING COUNT() > )))

WHERE SeqNumber > );

现在只用了秒钟的就完成的上面的任务比起上一个秒这是一个很大的进步相比之下存储过程用了秒这样存储过程有些慢了使用PL／SQL语句我们和我们以上的代码会得到更好的更精确的代码和提高你代码的执行效率虽然对于从数据库中枚举数据PL／SQL对于Sql两者没有什么差别但是对于数据的比较上 PL／SQL就比SQL要快很多但是如果冗余数据量比较小的话我们尽量使用SQL而不使用PL／SQL如果你的数据表没有主键的话那么你可以参考其它技术

Rank（）其它的方法

使用Rank（）函数你可以对选择你所保留的数据（或者是小ID的或者是大ID　的就由RECDate这个列来决定这种情况下你可以把REcdate加入到（Orderby　）子句中倒序或者正序

这是一种保留最大Id的一种解决方案

DELETE

FROM Customers

WHERE ID IN

(SELECT ID

FROM

(SELECT ID LastName FirstName RANK() OVER (PARTITION BY LastName FirstName ORDER BY RecDate DESC ID) AS SeqNumber

FROM

(SELECT ID LastName FirstName RecDate

FROM Customers

WHERE (LastName FirstName) IN (SELECT LastName FirstName

FROM Customers

GROUP BY LastName FirstName

HAVING COUNT() > )))

WHERE SeqNumber > );

这种技术保证了你可以控制每一个表中的保留的组假设你有一个数据库有一个促销或者有一个折扣信息比如一个团体可以使用这种促销5次或者个人可以使用这个折扣三次为了指出要保留的组的个数你可以在where 和having子句中进行设置那么你将删除所有大于你

设置有数的冗余组

DELETE

FROM Customers

WHERE ID IN

(SELECT ID

FROM

(SELECT ID LastName FirstName RANK() OVER (PARTITION BY LastName

FirstName ORDER BY ID) AS SeqNumber

FROM

(SELECT ID LastName FirstName

FROM Customers

WHERE (LastName FirstName) IN (SELECT LastName FirstName

FROM Customers

GROUP BY LastName FirstName

HAVING COUNT() > )))

WHERE SeqNumber > );

As you can see using the RANK() function allows you to eliminate duplicates in a

single SQL statement and gives you more capabilities by extending the power of

your

queries

lishixinzhi/Article/program/Oracle/201311/18979

1、数据库是依照某种数据模型组织起来并存放二级存储器中的数据集合。

2、数据库系统降低冗余度的方法：尽可能不重复，以最优方式为某个特定组织的多种应用服务；其数据结构独立于使用它的应用程序；数据的增、删、改和检索由统一软件进行管理和控制；从发展的历史看，数据库是数据管理的高级阶段，是由文件管理系统发展起来的。

3、数据库的基本结构分三个层次，反映了观察数据库的三种不同角度。物理数据层：是数据库的最内层，是物理存贮设备上实际存储的数据的集合；概念数据层：是数据库的中间一层，是数据库的整体逻辑表示；逻辑数据层：逻辑记录的集合。

我想你打错了吧，应该是“数据的沉余度”，沉余数据。为了向你解释什么叫做“沉余数据”，我给你举一个简单的例子。例如：在一个平面上，一个矩形，我们要怎样表示一个矩形呢？只要知道了它左上角的座标及长宽，就可以在一个座标系统里准确地绘制出这个矩形来。并且根据现有数据得到右下角座标。或者根据已知的右下角数据及长宽推算出左上角座标。也就是说，除了长宽外，只需要知道一个角的座标就可推算出另外三个角的座标。这里，如果用超过两个角的座标来表示这个矩形，其中一个角的座标就是沉余数据。

在一个数据集合中重复的数据称为数据冗余。

例如在设计数据库时，某一字段属于一个表，但它又同时出现在另一个或多个表，且完全等同于它在其本来所属表的意义表示，那么这个字段就是一个冗余字段。

以上就是关于如何删除数据库中的冗余数据(2)全部的内容，包括:如何删除数据库中的冗余数据(2)、数据库系统是怎样降低冗余度的数据库系统是如何降低冗余度的、什么是数据的冗余度等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/sjk/9880213.html

如何删除数据库中的冗余数据(2)

发表评论

评论列表（0条）