DEVELOPERS
开发
活动
Programs
社区
学堂
大赛
支持
语言
登录
注册
APP
海拥 2021/08/06 12k+
摘要 数据冗余和数据不一致是数据库中使用的重要术语。一个好的数据库设计是将数据冗余和数据不一致最小化的设计。在本文中,我们将介绍这两个术语是什么以及它们之间有什么区别。
概述:
数据冗余和数据不一致是数据库中使用的重要术语。一个好的数据库设计是将数据冗余和数据不一致最小化的设计。在本文中,我们将介绍这两个术语是什么以及它们之间有什么区别。
数据冗余:
它被定义为冗余意味着重复数据,也表示数据的相同部分存在于数据库中的多个位置。这种情况称为数据冗余。
数据冗余问题:
在这里,我们将讨论数据冗余的几个问题,如下所示。
1浪费的存储空间。
2更困难的数据库更新。
3会导致数据不一致。
4数据检索缓慢且效率低下。
示例 –
让我们以板球运动员桌为例。
步骤 1:
如下考虑板球运动员表。
参赛者姓名 队员年龄 队名 团队编号
马龙 32 中国队 1
迪米特里·奥恰洛夫 32 德国队 2
樊振东 24 中国队 1
许昕 31 中国队 1
蒂姆·波尔 40 德国队 2
派翠克·法兰兹卡 29 德国队 2
步骤 2:
我们可以清楚地看到 队名 和 团队ID 在多处重复。我们可以制作一个单独的表来存储这些信息并减少数据冗余。
参赛者姓名 队员年龄 团队编号
马龙 32 1
迪米特里·奥恰洛夫 32 2
樊振东 24 1
许昕 31 1
蒂姆·波尔 40 2
派翠克·法兰兹卡 29 2
步骤 3:
这称为标准化,用于减少数据冗余。
团队编号 队名
1 中国队
2 德国队
数据不一致:
当相同的数据以不同的格式存在于多个表中时。这种情况称为数据不一致。这意味着不同的文件包含有关特定对象或人的不同信息。这可能会导致不可靠和无意义的信息。数据冗余导致数据不一致。
例子
如果我们在很多表中有一个人的地址,当我们只在一个表中更改它而在另一个表中它可能不会更新,因此可能会出现数据不一致的问题。
区别:
话题 数据冗余 数据不一致
状况 适用于数据库中多处存在重复数据的情况。 适用于多个表中存在不同格式重复数据的情况。
如何最小化? 我们可以使用标准化来最小化数据冗余。 我们可以对数据库使用约束来最小化数据不一致。
以上就是本篇文章所要介绍的数据冗余和数据不一致的区别
数据冗余会导致数据库中数据的重复出现,占用大量的存储空间,在使用中导致不
便。
数据库设计中,要尽可能降低数据冗余,达到数据的简洁,易用
为了达到最低冗余,在设计中进行模式的规范化,一般达到BC范式的情况下,就可以大幅度第降低数据冗余。
数据冗余决不能完全消除,除非只有一个表。
删除所有大于你
设置有数的冗余组
DELETE
FROM Customers
WHERE ID IN
(SELECT ID
FROM
(SELECT ID, LastName, FirstName,
RANK() OVER (PARTITION BY LastName,
FirstName ORDER BY ID) AS SeqNumber
FROM
(SELECT ID, LastName, FirstName
FROM Customers
WHERE (LastName, FirstName) IN
(SELECT LastName, FirstName
FROM Customers
GROUP BY LastName, FirstName
HAVING COUNT() > 3)))
WHERE SeqNumber > 3);
As you can see, using the RANK() function allows you to eliminate duplicates in a
single SQL statement and gives you more capabilities by extending the power of
your
queries
正如你所见使用Rank()可以消除冗余数据而且能给你很大的可伸展性
它将冗余数据选择到一个游标中,并根据(LastName,FirstName)来分组(在我们这个方案中),然后打开游标然后循环地取出每一行,然后用与先前的取出的键值进行比较,如果这是第一次取出这个值,或者这个值不是冗余键,那么跳过这个记录然后取下一个,不然的话,这就是这个组中的冗余记录,所以删掉它.
让我们运行一下这个存储过程
BEGIN
DeleteDuplicates;
END;
/
SELECT LastName, FirstName, COUNT()
FROM Customers
GROUP BY LastName, FirstName
HAVING COUNT() > 1;
最后一个查询语句没有返回值,所以冗余数据没有了从表中取冗余数据的过程完全是由定义在csr_Duplicates 这个游标中的SQL语句来实现的,PL/SQl只是用来实现删除冗余数,那么能不能完全用SQL语句来实现呢?
二.SQL解决方案,使用RANK()删除冗余数据Oracle8i分析函数RANK()来枚举每一个组中的元素,在我们的方案中, 我们应用这个方案,我们使用这个函数动态的把冗余数据连续的排列起来加上编号,组由Partintion by 这个语句来分开,然后用Order by 进行分组SELECT ID, LastName, FirstName, RANK() OVER (PARTITION BY LastName,
FirstName ORDER BY ID) SeqNumber
FROM Customers
ORDER BY LastName, FirstName;
SQL
Listing 7 Output of single SQL statement that uses RANK()
显示的是根据记录的条数的个数来显示尤其对于冗余数据
ID LASTNAME FIRSTNAME SEQNUMBER
----- --------------- ---------- ----------
1018 Blake Becky 1
1013 Blue Don 1
1000 Bradley Tom 1
1002 Chang Jim 1
1008 Griffith David 1
1020 Hill Larry 1
1004 King Chuck 1
1005 Krieger Jeff 1
1012 Krieger Jeff 2
1017 Krieger Jeff 3
1003 Loney Julie 1
1007 Lord Don 1
1015 Mason Paul 1
1006 Monroe John 1
1009 Simon Michael 1
1010 Simon Michael 2
1001 Stone Tony 1
1011 Stone Tony 2
1014 Stone Tony 3
1016 Stone Tony 4
1019 Stone Tony 5
我们可以看一到,SeqNumber这一列中的数值,冗余数据是根据ID号由小到大进行的排序,所有的冗余数据的SqlNumber都大于一,所有的非冗余数据都等于一,所以我们取自己所需,删除那么没用的SELECT ID, LastName, FirstName
FROM
(SELECT ID, LastName, FirstName, RANK() OVER (PARTITION BY LastName,
FirstName ORDER BY ID) AS SeqNumber
FROM Customers)
WHERE SeqNumber > 1;
SQL
Listing 8 冗余键的键值
有七行必须被删除
ID LASTNAME FIRSTNAME
----- --------------- ----------
1012 Krieger Jeff
1017 Krieger Jeff
1010 Simon Michael
1011 Stone Tony
1014 Stone Tony
1016 Stone Tony
1019 Stone Tony
7 rows selected这显示有七行需要删除,还是用上一个表我测试了一下这个代码,它用了77秒种就删除了所有的数据准备好了用Sql语句来删除冗余数据,版本一它执行了135秒
DELETE
FROM CUSTOMERS
WHERE ID IN
(SELECT ID
FROM
(SELECT ID, LastName, FirstName, RANK() OVER (PARTITION BY LastName,
FirstName ORDER BY ID) AS SeqNumber
FROM Customers)
WHERE SeqNumber > 1);
我们可以看到最后的两行语句对表中的数据进行了排序,这不是有效的,所以我们来优化一下最后一个查询语句,把Rank()函数应用到只含有冗余数据的组,而不是所有的列下面这个语句是比较有效率的,虽然它不像上一个查询那样精简SELECT ID, LastName, FirstName
FROM
(SELECT ID, LastName, FirstName, RANK() OVER (PARTITION BY LastName,
FirstName ORDER BY ID) AS SeqNumber
FROM
(SELECT ID, LastName, FirstName
FROM Customers
WHERE (LastName, FirstName) IN (SELECT LastName, FirstName
FROM Customers
GROUP BY LastName, FirstName
HAVING COUNT() > 1)))
WHERE SeqNumber > 1;
选择冗余数据只用了26秒钟,这样就提高了67%的性能,这样就提高了将这个作为子查询的删除查询的效率,
DELETE
FROM Customers
WHERE ID IN
(SELECT ID
FROM
(SELECT ID, LastName, FirstName, RANK() OVER (PARTITION BY LastName,
FirstName ORDER BY ID) AS SeqNumber
FROM
(SELECT ID, LastName, FirstName
FROM Customers
WHERE (LastName, FirstName) IN (SELECT LastName, FirstName
FROM Customers
GROUP BY LastName, FirstName
HAVING COUNT() > 1)))
WHERE SeqNumber > 1);
现在只用了47秒钟的就完成的上面的任务,比起上一个136秒,这是一个很大的进步,相比之下,存储过程用了56秒,这样存储过程有些慢了使用PL/SQL语句我们和我们以上的代码,会得到更好的更精确的代码,和提高你代码的执行效率,虽然对于从数据库中枚举数据PL/SQL对于Sql两者没有什么差别,但是对于数据的比较上,PL/SQL就比SQL要快很多,但是如果冗余数据量比较小的话,我们尽量使用SQL而不使用PL/SQL如果你的数据表没有主键的话,那么你可以参考其它技术
Rank()其它的方法
使用Rank()函数你可以对选择你所保留的数据,(或者是小ID的或者是大ID 的,就由RECDate这个列来决定这种情况下,你可以把REcdate加入到(Orderby )子句中,倒序或者正序
这是一种保留最大Id的一种解决方案
DELETE
FROM Customers
WHERE ID IN
(SELECT ID
FROM
(SELECT ID, LastName, FirstName, RANK() OVER (PARTITION BY LastName, FirstName ORDER BY RecDate DESC, ID) AS SeqNumber
FROM
(SELECT ID, LastName, FirstName, RecDate
FROM Customers
WHERE (LastName, FirstName) IN (SELECT LastName, FirstName
FROM Customers
GROUP BY LastName, FirstName
HAVING COUNT() > 1)))
WHERE SeqNumber > 1);
这种技术保证了你可以控制每一个表中的保留的组,假设你有一个数据库,有一个促销或者有一个折扣信息,比如一个团体可以使用这种促销5次,或者个人可以使用这个折扣三次,为了指出要保留的组的个数,你可以在where 和having子句中进行设置,那么你将删除所有大于你
设置有数的冗余组
DELETE
FROM Customers
WHERE ID IN
(SELECT ID
FROM
(SELECT ID, LastName, FirstName, RANK() OVER (PARTITION BY LastName,
FirstName ORDER BY ID) AS SeqNumber
FROM
(SELECT ID, LastName, FirstName
FROM Customers
WHERE (LastName, FirstName) IN (SELECT LastName, FirstName
FROM Customers
GROUP BY LastName, FirstName
HAVING COUNT() > 3)))
WHERE SeqNumber > 3);
As you can see, using the RANK() function allows you to eliminate duplicates in a
single SQL statement and gives you more capabilities by extending the power of
your
queries
正如你所见使用Rank()可以消除冗余数据而且能给你很大的可伸展性
以上就是关于数据库设计冗余和不完整的区别全部的内容,包括:数据库设计冗余和不完整的区别、数据库中数据冗余会产生什么问题、如何删除数据库中的冗余数据等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)