SQL中的数据冗余的最佳解决方法是什么

SQL中的数据冗余的最佳解决方法是什么,第1张

数据应该尽可能少地冗余,这意味着重复数据应该减少到最少。比如说,一个部门雇员的电话不应该被存储在不同的表中, 因为这里的电话号码是雇员的一个属性。如果存在过多的冗余数据,这就意味着要占用了更多的物理空间,同时也对数据的维护和一致性检查带来了问题,当这个员工的电话号码变化时,冗余数据会导致对多个表的更新动作,如果有一个表不幸被忽略了,那么就可能导致数据的不一致性。 从一范式转化到二范式根据第二范式的定义,转化为二范式就是消除部分依赖。考察表1-1,我们可以发现,非主属性<Project Name>部分依赖于主键中的<Project Number>; 非主属性<Employee Name>,<Salary Category>和<Salary package>都部分依赖于主键中的<Employee Number>;表1-1的形式,存在着以下潜在问题:1. 数据冗余:每一个字段都有值重复;2. 更新异常:比如<Project Name>字段的值,比如对值"TPMS"了修改,那么就要一次更新该字段的多个值;3. 插入异常:如果新建了一个Project,名字为TPT, 但是还没有Employee加入,那么<Employee Number>将会空缺,而该字段是主键的一部分,因此将无法插入记录;Insert into SAMPLE(PRJNUM, PRJNAME, EMYNUM, EMYNAME, SALCATEGORY, SALPACKAGE) values(100003, 'TPT', NULL, NULL, NULL, NULL)

4. 删除异常:如果一个员工 200003, Kevin 离职了,要将该员工的记录从表中删除,而此时相关的Salary信息 C 也将丢失, 因为再没有别的行纪录下 Salary C的信息。Delete from sample where EMYNUM = 200003

Select distinct SALCATEGORY, SALPACKAGE from SAMPLE因此,我们需要将存在部分依赖关系的主属性和非主属性从满足第一范式的表中分离出来,形成一张新的表,而新表和旧表之间是一对多的关系。由此,我们得到:

CREATE TABLE "PROJECT" ( "PRJNUM" INTEGER NOT NULL, "PRJNAME" VARCHAR(200)) IN "USERSPACE1";ALTER TABLE "PROJECT" ADD PRIMARY KEY ("PRJNUM");Insert into PROJECT(PRJNUM, PRJNAME) values(100001, 'TPMS'), (100002, 'TCT');

表1-2

表 1-3

CREATE TABLE "EMPLOYEE" ( "EMYNUM" INTEGER NOT NULL, "EMYNAME" VARCHAR(200), "SALCATEGORY" CHAR(1), "SALPACKAGE" INTEGER) IN "USERSPACE1";ALTER TABLE "EMPLOYEE" ADD PRIMARY KEY ("EMYNUM");Insert into EMPLOYEE(EMYNUM, EMYNAME, SALCATEGORY, SALPACKAGE) values(200001,'Johnson', 'A', 2000), (200002, 'Christine', 'B', 3000), (200003, 'Kevin', 'C',4000), (200004, 'Apple', 'B', 3000);Employee Number Employee Name Salary Category Salary Package200001 Johnson A 2000200002 Christine B 3000200003 Kevin C 4000200004 Apple B 3000

CREATE TABLE "PRJ_EMY" ( "PRJNUM" INTEGER NOT NULL, "EMYNUM" INTEGER NOT NULL) IN "USERSPACE1";ALTER TABLE "PRJ_EMY" ADD PRIMARY KEY ("PRJNUM", "EMYNUM");Insert into PRJ_EMY(PRJNUM, EMYNUM) values(100001, 200001), (100001, 200002),(100001, 200003), (100002, 200001), (100002, 200004);

同时,我们把表1-1的主键,也就是表1-2和表1-3的各自的主键提取出来,单独形成一张表,来表明表1-2和表1-3之间的关联关系:

表 1-4

这时候我们仔细观察一下表1-2, 1-3, 1-4, 我们发现插入异常已经不存在了,当我们引入一个新的项目 TPT 的时候,我们只需要向表1-2 中插入一条数据就可以了, 当有新人加入项目 TPT 的时候,我们需要向表1-3, 1-4 中各插入一条数据就可以了。虽然我们解决了一个大问题,但是仔细观察我们还是发现有问题存在。

回页首

从二范式转化到三范式考察表前面生成的三张表,我们发现,表1-3存在传递依赖关系,即:关键字段< Employee Number > --> 非关键字段< Salary Category > -->非关键字段< Salary Package >。而这是不满足三范式的规则的,存在以下的不足:1、 数据冗余:<Salary Category>和<Salary Package>的值有重复;2、 更新异常:有重复的冗余信息,修改时需要同时修改多条记录,否则会出现数据不一致的情况;3、 删除异常:同样的,如果员工 200003 Kevin 离开了公司,会直接导致 Salary C 的信息的丢失。Delete from EMPLOYEE where EMYNUM = 200003

Select distinct SALCATEGORY, SALPACKAGE from EMPLOYEE因此,我们需要继续进行规范化的过程,把表1-3拆开,我们得到:

表 1-5

表 1-6

这时候如果 200003 Kevin 离开公司,我们只需要从表 1-5 中删除他就可以了, 存在于表1-6中的Salary C信息并不会丢失。但是我们要注意到除了表 1-5 中存在 Kevin 的信息之外, 表1-4中也存在 Kevin 的信息, 这很容易理解, 因为 Kevin 参与了项目 100001, TPMS, 所以当然也要从中删除。 至此,我们将表1-1经过规范化步骤,得到四张表,满足了三范式的约束要求,数据冗余、更新异常、插入异常和删除异常。在三范式之上,还存在着更为严格约束的BC范式和四范式,但是这两种形式在商业应用中很少用到,在绝大多数情况下,三范式已经满足了数据库表规范化的要求,有效地解决了数据冗余和维护 *** 作的异常问题。

DEVELOPERS

开发

活动

Programs

社区

学堂

大赛

支持

语言

登录

注册

APP

数据冗余和数据不一致的区别丨绽放吧!数据库

海拥 2021/08/06 12k+

摘要 数据冗余和数据不一致是数据库中使用的重要术语。一个好的数据库设计是将数据冗余和数据不一致最小化的设计。在本文中,我们将介绍这两个术语是什么以及它们之间有什么区别。

概述:

数据冗余和数据不一致是数据库中使用的重要术语。一个好的数据库设计是将数据冗余和数据不一致最小化的设计。在本文中,我们将介绍这两个术语是什么以及它们之间有什么区别。

数据冗余:

它被定义为冗余意味着重复数据,也表示数据的相同部分存在于数据库中的多个位置。这种情况称为数据冗余。

数据冗余问题:

在这里,我们将讨论数据冗余的几个问题,如下所示。

1浪费的存储空间。

2更困难的数据库更新。

3会导致数据不一致。

4数据检索缓慢且效率低下。

示例 –

让我们以板球运动员桌为例。

步骤 1:

如下考虑板球运动员表。

参赛者姓名 队员年龄 队名 团队编号

马龙 32 中国队 1

迪米特里·奥恰洛夫 32 德国队 2

樊振东 24 中国队 1

许昕 31 中国队 1

蒂姆·波尔 40 德国队 2

派翠克·法兰兹卡 29 德国队 2

步骤 2:

我们可以清楚地看到 队名 和 团队ID 在多处重复。我们可以制作一个单独的表来存储这些信息并减少数据冗余。

参赛者姓名 队员年龄 团队编号

马龙 32 1

迪米特里·奥恰洛夫 32 2

樊振东 24 1

许昕 31 1

蒂姆·波尔 40 2

派翠克·法兰兹卡 29 2

步骤 3:

这称为标准化,用于减少数据冗余。

团队编号 队名

1 中国队

2 德国队

数据不一致:

当相同的数据以不同的格式存在于多个表中时。这种情况称为数据不一致。这意味着不同的文件包含有关特定对象或人的不同信息。这可能会导致不可靠和无意义的信息。数据冗余导致数据不一致。

例子

如果我们在很多表中有一个人的地址,当我们只在一个表中更改它而在另一个表中它可能不会更新,因此可能会出现数据不一致的问题。

区别:

话题 数据冗余 数据不一致

状况 适用于数据库中多处存在重复数据的情况。 适用于多个表中存在不同格式重复数据的情况。

如何最小化? 我们可以使用标准化来最小化数据冗余。 我们可以对数据库使用约束来最小化数据不一致。

以上就是本篇文章所要介绍的数据冗余和数据不一致的区别

在一个数据集合中重复的数据。数据冗余发生在数据库系统中,指的是一个字段在多个表里重复出现,在一个数据集合中重复的数据称为数据冗余。数据库是“按照数据结构来组织、存储和管理数据的仓库”,是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。

以上就是关于SQL中的数据冗余的最佳解决方法是什么全部的内容,包括:SQL中的数据冗余的最佳解决方法是什么、数据库设计冗余和不完整的区别、数据库中的冗余数据是指等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9548111.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-29
下一篇 2023-04-29

发表评论

登录后才能评论

评论列表(0条)

保存