数据冗余是不是应该消除干净_工具

数据冗余指数据之间的重复，也可以说是同一数据存储在不同数据文件中的现象。可以说增加数据的独立性和减少数据冗余为企业范围信息资源管理和大规模信息系统获得成功的前提条件。

数据冗余会妨碍数据库中数据的完整性(integrality)，也会造成存贮空间的浪费。尽可能地降低数据冗余度，是数据库设计的主要目标之一。关系模式的规范化理沦(以下称NF理论)的主要思想之一就是最小冗余原则，即规范化的关系模式在某种意义上应该冗余度最小。

但是，NF理论没有标准的概念可用，按等价原则，在有或没有泛关系假设(universal relation assumption)等不同前提下，冗余的定义可能有好几种。

数据的应用中为了某种目的采取数据冗余方式。

1、重复存储或传输数据以防止数据的丢失。

2、对数据进行冗余性的编码来防止数据的丢失、错误，并提供对错误数据进行反变换得到原始数据的功能。

3、为简化流程所造成额数据冗余。

4、为加快处理过程而将同一数据在不同地点存放。

5、为方便处理而使同一信息在不同地点有不同的表现形式。

6、大量数据的索引，一般在数据库中经常使用。

7、方法类的信息冗余。

8、为了完备性而配备的冗余数据。

9、规则性的冗余。根据法律、制度、规则等约束进行的。

10、为达到其他目的所进行的冗余。

多余的重复或_嗦内容（包括信息、语言、代码、结构、服务、软件、硬件等等）均称为冗余。

冗余有两层含义，第一层含义是指多余的不需要的部分，第二层含义是指人为增加地重复部分，其目的是用来对原本的单一部分进行备份，以达到增强其安全性的目的，这在信息通信系统当中有着较为广泛的应用。

冗余是一个汉语词汇，拼音是rǒngyú，英文是redundancyredundance。

您好：

数据冗余或者信息冗余是生产、生活所必然存在的行为，没有好与不好的总体倾向。

一般设计数据库是都在达到3范式或更高，否则数据的冗余程度非常高。

通常在设计的时候，需要考虑扩展性，阅读性，响应时间和语句复杂程度等。

需要有一定的冗余来达到维护需要，这往往是经验丰富的开发人员和DBA来考虑的。

数据应该尽可能少地冗余，这意味着重复数据应该减少到最少。比如说，一个部门雇员的电话不应该被存储在不同的表中，因为这里的电话号码是雇员的一个属性。如果存在过多的冗余数据，这就意味着要占用了更多的物理空间，同时也对数据的维护和一致性检查带来了问题，当这个员工的电话号码变化时，冗余数据会导致对多个表的更新动作，如果有一个表不幸被忽略了，那么就可能导致数据的不一致性。从一范式转化到二范式根据第二范式的定义，转化为二范式就是消除部分依赖。考察表1-1，我们可以发现，非主属性<Project Name>部分依赖于主键中的<Project Number>; 非主属性<Employee Name>，<Salary Category>和<Salary package>都部分依赖于主键中的<Employee Number>；表1-1的形式，存在着以下潜在问题：1．数据冗余：每一个字段都有值重复；2．更新异常：比如<Project Name>字段的值，比如对值"TPMS"了修改，那么就要一次更新该字段的多个值；3．插入异常：如果新建了一个Project，名字为TPT, 但是还没有Employee加入，那么<Employee Number>将会空缺，而该字段是主键的一部分，因此将无法插入记录；Insert into SAMPLE(PRJNUM, PRJNAME, EMYNUM, EMYNAME, SALCATEGORY, SALPACKAGE) values(100003, 'TPT', NULL, NULL, NULL, NULL)

4．删除异常：如果一个员工 200003, Kevin 离职了，要将该员工的记录从表中删除，而此时相关的Salary信息 C 也将丢失, 因为再没有别的行纪录下 Salary C的信息。Delete from sample where EMYNUM = 200003

Select distinct SALCATEGORY, SALPACKAGE from SAMPLE因此，我们需要将存在部分依赖关系的主属性和非主属性从满足第一范式的表中分离出来，形成一张新的表，而新表和旧表之间是一对多的关系。由此，我们得到：

CREATE TABLE "PROJECT" ( "PRJNUM" INTEGER NOT NULL, "PRJNAME" VARCHAR(200)) IN "USERSPACE1";ALTER TABLE "PROJECT" ADD PRIMARY KEY ("PRJNUM");Insert into PROJECT(PRJNUM, PRJNAME) values(100001, 'TPMS'), (100002, 'TCT');

表1-2

表 1-3

CREATE TABLE "EMPLOYEE" ( "EMYNUM" INTEGER NOT NULL, "EMYNAME" VARCHAR(200), "SALCATEGORY" CHAR(1), "SALPACKAGE" INTEGER) IN "USERSPACE1";ALTER TABLE "EMPLOYEE" ADD PRIMARY KEY ("EMYNUM");Insert into EMPLOYEE(EMYNUM, EMYNAME, SALCATEGORY, SALPACKAGE) values(200001,'Johnson', 'A', 2000), (200002, 'Christine', 'B', 3000), (200003, 'Kevin', 'C',4000), (200004, 'Apple', 'B', 3000);Employee Number Employee Name Salary Category Salary Package200001 Johnson A 2000200002 Christine B 3000200003 Kevin C 4000200004 Apple B 3000

CREATE TABLE "PRJ_EMY" ( "PRJNUM" INTEGER NOT NULL, "EMYNUM" INTEGER NOT NULL) IN "USERSPACE1";ALTER TABLE "PRJ_EMY" ADD PRIMARY KEY ("PRJNUM", "EMYNUM");Insert into PRJ_EMY(PRJNUM, EMYNUM) values(100001, 200001), (100001, 200002),(100001, 200003), (100002, 200001), (100002, 200004);

同时，我们把表1-1的主键，也就是表1-2和表1-3的各自的主键提取出来，单独形成一张表，来表明表1-2和表1-3之间的关联关系：

表 1-4

这时候我们仔细观察一下表1-2, 1-3, 1-4, 我们发现插入异常已经不存在了，当我们引入一个新的项目 TPT 的时候，我们只需要向表1-2 中插入一条数据就可以了，当有新人加入项目 TPT 的时候，我们需要向表1-3, 1-4 中各插入一条数据就可以了。虽然我们解决了一个大问题，但是仔细观察我们还是发现有问题存在。

回页首

从二范式转化到三范式考察表前面生成的三张表，我们发现，表1-3存在传递依赖关系，即：关键字段< Employee Number > --> 非关键字段< Salary Category > -->非关键字段< Salary Package >。而这是不满足三范式的规则的，存在以下的不足：1、数据冗余：<Salary Category>和<Salary Package>的值有重复；2、更新异常：有重复的冗余信息，修改时需要同时修改多条记录，否则会出现数据不一致的情况；3、删除异常：同样的，如果员工 200003 Kevin 离开了公司，会直接导致 Salary C 的信息的丢失。Delete from EMPLOYEE where EMYNUM = 200003

Select distinct SALCATEGORY, SALPACKAGE from EMPLOYEE因此，我们需要继续进行规范化的过程，把表1-3拆开，我们得到：

表 1-5

和

表 1-6

这时候如果 200003 Kevin 离开公司，我们只需要从表 1-5 中删除他就可以了，存在于表1-6中的Salary C信息并不会丢失。但是我们要注意到除了表 1-5 中存在 Kevin 的信息之外，表1-4中也存在 Kevin 的信息，这很容易理解，因为 Kevin 参与了项目 100001， TPMS，所以当然也要从中删除。至此，我们将表1-1经过规范化步骤，得到四张表，满足了三范式的约束要求，数据冗余、更新异常、插入异常和删除异常。在三范式之上，还存在着更为严格约束的BC范式和四范式，但是这两种形式在商业应用中很少用到，在绝大多数情况下，三范式已经满足了数据库表规范化的要求，有效地解决了数据冗余和维护 *** 作的异常问题。

冗余，指重复配置系统的一些部件，当系统发生故障时，冗余配置的部件介入并承担故障部件的工作，由此减少系统的故障时间。

简单地说，所谓冗余度，就是从安全角度考虑多余的一个量，这个量就是为了保障仪器、设备或某项工作在非正常情况下也能正常运转。目前大多现代产品和工程设计中都应用了冗余度这个思想和理论。在许多医疗单位中药品存量不足，卫生材料存量不够，一遇突发事件，就会造成缺货，造成涨价风波，影响社会安定。在我们的医院中，由于各项费用都与经济效益挂钩，医疗设备等卫生装备冗余度很不够，基本上只能按平时的正常运转设置，甚至有的都没达到。一遇突发事件，这点装备就显得严重不足。

冗余度，通俗的讲就是数据的重复度。在一个数据集合中重复的数据称为数据冗余

在地理信息系统中，数据冗余度的计算公式是

R=1-（Q/mn）

式中：Q为相邻属性值变化次数的累加和

m为行数

n为列数

以上就是关于数据冗余是不是应该消除干净全部的内容，包括:数据冗余是不是应该消除干净、冗余是什么意思、什么是数据库冗余，如何避免数据库冗余等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9774425.html

数据冗余是不是应该消除干净

发表评论

评论列表（0条）