一文看懂数据清洗：缺失值、异常值和重复值的处理_工具

作者：宋天龙

如需转载请联系华章科技

数据缺失分为两种：一种是 行记录的缺失 ，这种情况又称数据记录丢失；另一种是 数据列值的缺失 ，即由于各种原因导致的数据记录中某些列的值空缺。

不同的数据存储和环境中对于缺失值的表示结果也不同，例如，数据库中是Null，Python返回对象是None，Pandas或Numpy中是NaN。

在极少数情况下，部分缺失值也会使用空字符串来代替，但空字符串绝对不同于缺失值。从对象的实体来看，空字符串是有实体的，实体为字符串类型；而缺失值其实是没有实体的，即没有数据类型。

丢失的数据记录通常无法找回，这里重点讨论数据列类型缺失值的处理思路。通常有4种思路。

1 丢弃

这种方法简单明了，直接删除带有缺失值的行记录（整行删除）或者列字段（整列删除），减少缺失数据记录对总体数据的影响。 但丢弃意味着会消减数据特征 ，以下任何一种场景都不宜采用该方法。

2 补全

相对丢弃而言，补全是更加常用的缺失值处理方式。通过一定的方法将缺失的数据补上，从而形成完整的数据记录，对于后续的数据处理、分析和建模至关重要。常用的补全方法如下。

3 真值转换法

在某些情况下，我们可能无法得知缺失值的分布规律，并且无法对于缺失值采用上述任何一种补全方法做处理；或者我们认为数据缺失也是一种规律，不应该轻易对缺失值随意处理，那么还有一种缺失值处理思路—真值转换。

该思路的根本观点是， 我们承认缺失值的存在，并且把数据缺失也作为数据分布规律的一部分 ，将变量的实际值和缺失值都作为输入维度参与后续数据处理和模型计算中。但是变量的实际值可以作为变量值参与模型计算，而缺失值通常无法参与运算，因此需要对缺失值进行真值转换。

以用户性别字段为例，很多数据库集都无法对会员的性别进行补足，但又舍不得将其丢弃掉，那么我们将选择将其中的值，包括男、女、未知从一个变量的多个值分布状态转换为多个变量的真值分布状态。

然后将这3列新的字段作为输入维度替换原来的1个字段参与后续模型计算。

4 不处理

在数据预处理阶段，对于具有缺失值的数据记录不做任何处理，也是一种思路。这种思路主要看后期的数据分析和建模应用， 很多模型对于缺失值有容忍度或灵活的处理方法 ，因此在预处理阶段可以不做处理。

常见的能够自动处理缺失值的模型包括：KNN、决策树和随机森林、神经网络和朴素贝叶斯、DBSCAN（基于密度的带有噪声的空间聚类）等。这些模型对于缺失值的处理思路是：

在数据建模前的数据归约阶段，有一种归约的思路是降维，降维中有一种直接选择特征的方法。假如我们通过一定方法确定带有缺失值（无论缺少字段的值缺失数量有多少）的字段对于模型的影响非常小，那么我们根本就不需要对缺失值进行处理。

因此，后期建模时的字段或特征的重要性判断也是决定是否处理字段缺失值的重要参考因素之一。

对于缺失值的处理思路是先通过一定方法找到缺失值，接着分析缺失值在整体样本中的分布占比，以及缺失值是否具有显著的无规律分布特征，然后考虑后续要使用的模型中是否能满足缺失值的自动处理，最后决定采用哪种缺失值处理方法。

在选择处理方法时，注意投入的时间、精力和产出价值，毕竟，处理缺失值只是整个数据工作的冰山一角而已。

在数据采集时，可在采集端针对各个字段设置一个默认值。以MySQL为例，在设计数据库表时，可通过default指定每个字段的默认值，该值必须是常数。

在这种情况下，假如原本数据采集时没有采集到数据，字段的值应该为Null，虽然由于在建立库表时设置了默认值会导致“缺失值”看起来非常正常，但本质上还是缺失的。对于这类数据需要尤其注意。

异常数据是数据分布的常态，处于特定分布区域或范围之外的数据通常会被定义为异常或“噪音”。产生数据“噪音”的原因很多，例如业务运营 *** 作、数据采集问题、数据同步问题等。

对异常数据进行处理前，需要先辨别出到底哪些是真正的数据异常。从数据异常的状态看分为两种：

大多数数据挖掘或数据工作中，异常值都会在数据的预处理过程中被认为是噪音而剔除，以避免其对总体数据评估和分析挖掘的影响。但在以下几种情况下，我们无须对异常值做抛弃处理。

1 异常值正常反映了业务运营结果

该场景是由业务部门的特定动作导致的数据分布异常，如果抛弃异常值将导致无法正确反馈业务结果。

例如：公司的A商品正常情况下日销量为1000台左右。由于昨日举行优惠促销活动导致总销量达到10000台，由于后端库存备货不足导致今日销量又下降到100台。在这种情况下，10000台和100台都正确地反映了业务运营的结果，而非数据异常案例。

2 异常检测模型

异常检测模型是针对整体样本中的异常数据进行分析和挖掘，以便找到其中的异常个案和规律，这种数据应用围绕异常值展开，因此异常值不能做抛弃处理。

异常检测模型常用于客户异常识别、xyk欺诈、贷款审批识别、药物变异识别、恶劣气象预测、网络入侵检测、流量作弊检测等。在这种情况下，异常数据本身是目标数据，如果被处理掉将损失关键信息。

3 包容异常值的数据建模

如果数据算法和模型对异常值不敏感，那么即使不处理异常值也不会对模型本身造成负面影响。例如在决策树中，异常值本身就可以作为一种分裂节点。

数据集中的重复值包括以下两种情况：

去重是重复值处理的主要方法，主要目的是保留能显示特征的唯一数据记录。但当遇到以下几种情况时，请慎重（不建议）执行数据去重。

1 重复的记录用于分析演变规律

以变化维度表为例。例如在商品类别的维度表中，每个商品对应的同1个类别的值应该是唯一的，例如苹果iPhone7属于个人电子消费品，这样才能将所有商品分配到唯一类别属性值中。但当所有商品类别的值重构或升级时（大多数情况下随着公司的发展都会这么做），原有的商品可能被分配了类别中的不同值。如下表所示展示了这种变化。

此时，我们在数据中使用Full join做跨重构时间点的类别匹配时，会发现苹果iPhone7会同时匹配到个人电子消费品和手机数码2条记录。对于这种情况，需要根据具体业务需求处理。

2 重复的记录用于样本不均衡处理

在开展分类数据建模工作时，样本不均衡是影响分类模型效果的关键因素之一。解决分类方法的一种方法是对少数样本类别做简单过采样，通过随机过采样，采取简单复制样本的策略来增加少数类样本。

经过这种处理方式后，也会在数据记录中产生相同记录的多条数据。此时，我们不能对其中的重复值执行去重 *** 作。

3 重复的记录用于检测业务规则问题

对于以分析应用为主的数据集而言，存在重复记录不会直接影响实际运营，毕竟数据集主要是用来做分析的。

但对于事务型的数据而言， 重复数据可能意味着重大运营规则问题 ，尤其当这些重复值出现在与企业经营中与金钱相关的业务场景时，例如：重复的订单、重复的充值、重复的预约项、重复的出库申请等。

这些重复的数据记录通常是由于数据采集、存储、验证和审核机制的不完善等问题导致的，会直接反映到前台生产和运营系统。以重复订单为例：

因此，这些问题必须在前期数据采集和存储时就通过一定机制解决和避免。如果确实产生了此类问题，那么数据工作者或运营工作者可以基于这些重复值来发现规则漏洞，并配合相关部门，最大限度地降低由此而带来的运营风险。

本文摘编自《Python数据分析与数据化运营》（第2版），经出版方授权发布。

数据库技术的主要目的是研究如何组织和存储数据，如何高效地获取和处理数据。包括：信息，数据，数据处理，数据库，数据库管理系统以及数据库系统等。

数据库技术是信息系统的一个核心技术。是一种计算机辅助管理数据的方法，它研究如何组织和存储数据，如何高效地获取和处理数据。是通过研究数据库的结构、存储、设计、管理以及应用的基本理论和实现方法，并利用这些理论来实现对数据库中的数据进行处理、分析和理解的技术。

数据库技术涉及到许多基本概念，主要包括：信息，数据，数据处理，数据库，数据库管理系统以及数据库系统等。

数据库技术是现代信息科学与技术的重要组成部分，是计算机数据处理与信息管理系统的核心。数据库技术研究和解决了计算机信息处理过程中大量数据有效地组织和存储的问题。

在数据库系统中减少数据存储冗余、实现数据共享、保障数据安全以及高效地检索数据和处理数据。数据库技术的根本目标是要解决数据的共享问题。

管理数据库主要做好以下3方面的内容:

一、数据库定期备份

首先利用数据库自带的命令行工具将数据库备份下来,然后将该文件以日期参量重命名。

数据库定期备份的原因:

1)、有些数据是随时变化的,备份可以记录某时间点的数据;

2)、如数据库故障,可以随时还原。

二、数据库优化

1)、进行sql语句的执行优化;

2)、减少应用和数据库的交互次数、同一个sql语句的执行次数;

3)、整理数据库实体的碎片(特别是对某些表经常进行insert和delete动作,尤其注意,索引字段为系列字段、自增长字段、时间字段,对于业务比较频繁的系统,最好一个月重建一次);

4)、减少表之间的关联,特别对于批量数据处理,尽量单表查询数据,统一在内存中进行逻辑处理,减少数据库压力(java处理批量数据不可取,尽量用c或者c进行处理,效率大大提升);

5)、对访问频繁的数据,充分利用数据库cache和应用的缓存;

6)、数据量比较大的,在设计过程中,为了减少其他表的关联,增加一些冗余字段,提高查询性能。

三、数据库日志文件管理

1、查看数据库中日志文件；

默认是三个组,这是数据库创建时自己添加的三个日志文件组；

2、添加日志文件组并添加成员。

Origin在大学物理实验数据处理中的应用

Abstract： Firstly the characteristics and function of Origin software was introduced Secondly， the Franck-Hertz experiment data processing by using Origin was given Finally the application of Origin in physics experiment data processing has characteristics of simple method， quick， accurate and efficient

关键词：数据处理；Origin软件；夫兰克-赫兹实验

Key words： data processing；Origin；the Franck-Hertz experiment

中图分类号：O4-39 文献标识码：A 文章编号：1006-4311（2015）26-0185-02

0 引言

Origin是美国Origin Lab公司推出的基于Windows平台的一款数据和图像处理软件，其最突出的特点是简单、易懂、直观、形象、图形化。Origin软件不仅包括计算、统计、直线和曲线拟合等各种完善的数据分析功能，而且提供了几十种二维和三维绘图模板，它采取直观的、图形化的、面向对象的窗口菜单和工具栏 *** 作。用Origin处理物理实验数据，不用编程，只要输入测量数据就可进行最小二成拟合、计算和分析，会显得方便可靠、事半功倍。与常用的Excel软件相比，Origin软件能够提供准确的信息和参数、图形，尤其是在非线性数据处理拟合方面。

1 Origin软件的优势

11 强大的处理功能

具有计算、统计、线性拟合、傅里叶变换等各种完善的数据分析和强大的绘图功能，此外，还可以和各种数据库软件、办公软件、图像处理软件等进行方便的链接，实现数据共享；可以用高级语言编写数据分析和作图程序。

12 快捷的处理方式

在研究物理现象时，实验的任务不仅是观察物理现象，更重要的是找出各物理量之间的数量关系，找出变化规律。作图法可以用图像直观地表达物理量间的变化关系，是处理物理实验数据常采用的方法之一，实验数据一般随自身自变量的变化，在图上表现为波峰和波谷的存在。要找出各个波峰的位置和强度，一般是通过反查原始数据报表的方法，但这种方法不很直观，而且费时耗力。利用Origin软件，直接输入原始数据，不仅可以作出直观形象的曲线图，还可以从图中直接读取峰值数据。

13 准确的处理结果

随着当今实验仪器的不断更新、集成化、数字化，很显然传统的坐标纸作图、人工、计算数据等数据处理方式不能很好地分析计算结果。而且，这些陈旧方式准确程度有限，带有一定的主观随意性，曲线拟合的非常粗糙。Origin软件在线性拟合和非线性拟合时，可屏蔽某些偏差较大的数据点，以降低曲线拟合的偏差，得到更准确的结果。

2 数据处理方法

本文以夫兰克-赫兹实验为例说明应用Origin软件处理实验数据的基本方法。实验用DH智能型夫兰克-赫兹实验仪自动采集数据。在数据表中取各峰值所对应的栅极电压UG2K值，计算各相邻峰值间隔的算术平均值，从而确定原子第一激发态电位，从而验证原子能级是分离的结论。

21 数据的导入。打开Origin软件，会看到Data1数据窗口，在横、纵坐标中分别输入试验中测得的电压UG2K和电流I数据（见表1），也可以先把数据存为txt文件，再依次选中菜单栏“文件-导入-单个ASCII”，导入原先保存的数据文件。

22 坐标注释的优化。双击“坐标注释”后可以修改所需要的文字（UG2K、I）。

23 坐标刻度的修饰。双击坐标数字，在标题和格式中将“下”和“左”坐标中的“主坐标”和“副坐标”下拉菜单中的“出”改为“入”。在“刻度”中可以对单位刻度进行修改，一般为1、2、5或者10这类数字，横、纵坐标的刻度个数一般取5个至7个。

24 数据的拟合。在实验数据窗口Data1中选定数据分析区域，用“线条图”命令画出实验曲线。选择菜单命令“拾取峰值”，打开拾取峰值工具对话框，单击对话框中“查找峰值”命令按钮，则Origin将自动找到峰值点，并标注在曲线上。

25 数据图的导出。在图像上右击鼠标，选中“复制页面”，可以将数据图粘贴至word中，在word文档中双击该数据图可以返回至word *** 作界面，还可以通过“输出页面”将数据图保存为JPG等格式。（表1）

3 结束语

通过上述 *** 作中峰值数据可以较准确的确定氩原子的第一激发态电位。应用Origin软件强大的绘图和数据分析功能可以快速、准确地进行物理实验数据的处理。Origin软件在实例中的应用表明：该方法绘图方便、快捷、准确、美观、高效；计算分析无需编程与手工计算， *** 作简便、速度快、精度高、实践表明，该软件在复杂试验中具有更强大的数据分析和绘图能力。

参考文献：

[1]牟中飞，等Origin软件在物理实验数据处理中的应用[J]实验科学与技术，2009（2）：60-63

[2]夏春兰Origin软件在物理化学实验数据处理中的应用[J]大学化学，2003（1）：44-46

[3]易均辉，莫惠媚，龚福忠，周立亚巧用Origin软件处理物理化学实验数据[J]实验室研究与探索，2009（08）

《数据挖掘》实验指导书

2011年3月1日

长沙学院信息与计算科学系

前言

随着数据库技术的发展，特别是数据仓库以及Web 等新型数据源的日益普及，形成了数据丰富，知识缺乏的严重局面。针对如何有效地利用这些海量的数据信息的挑战，数据挖掘技术应运而生，并显示出强大的生命力。数据挖掘技术使数据处理技术进入了一个更高级的阶段，是对未来人类产生重大影响的十大新兴技术之一。因此加强数据挖掘领域的理论与实践学习也已成为专业学生的必修内容。

本实验指导书通过大量的实例，循序渐进地引导学生做好各章的实验。根据实验教学大纲，我们编排了五个实验，每个实验又分了五部分内容：实验目的、实验内容、实验步骤、实验报告要求、注意事项。在实验之前，由教师对实验作一定的讲解后，让学生明确实验目的，并对实验作好预习工作。在实验中，学生根据实验指导中的内容进行验证与总结，然后再去完成实验步骤中安排的任务。实验完成后，学生按要求完成实验报告。整个教学和实验中，我们强调学生切实培养动手实践能力，掌握数据挖掘的基本方法。

实验一 K-Means聚类算法实现

一、实验目的

通过分析K-Means 聚类算法的聚类原理，利用Vc 编程工具编程实现K-Means 聚类算法，并通过对样本数据的聚类过程，加深对该聚类算法的理解与应用过程。实验类型：验证计划课间：4学时

二、实验内容

1、分析K-Means 聚类算法； 2、分析距离计算方法； 3、分析聚类的评价准则；

4、编程完成K-Means 聚类算法，并基于相关实验数据实现聚类过程；

三、实验方法

1、K-means 聚类算法原理

K-means聚类算法以k 为参数，把n 个对象分为k 个簇，以使簇内的具有较高的相似度。相似度的计算根据一个簇中对象的平均值来进行。算法描述：

输入：簇的数目k 和包含n 个对象的数据库

输出：使平方误差准则最小的k 个簇过程：

任选k 个对象作为初始的簇中心； Repeat

for j=1 to n DO

根据簇中对象的平均值，将每个对象赋给最类似的簇 for i=1 to k DO 更新簇的平均值计算E

Unitl E不再发生变化按簇输出相应的对象

2、聚类评价准则： E 的计算为：E =

∑∑|x -x

i =1x ∈C i

四、实验步骤 41 实验数据

P192：15

42初始簇中心的选择选择k 个样本作为簇中心 For (i=0;i

For (j=0;j

ClusterCenter[i][j]=DataBase[i][j]

43 数据对象的重新分配

Sim=某一较大数；ClusterNo=-1;

For (i=0;i

If (Distance(DataBase[j],ClusterCenter[i])

ClusterNo=i;}

ObjectCluster[j]=ClusterNo;

44 簇的更新

For (i=0;i

{Temp=0;Num=0; For (j=0;j

If (ObjectCluster[j]==i){Num++; Temp+=DataBase[j];} If (ClusterCenter[i]!=Temp) HasChanged=TRUE; ClusterCenter[i]=Temp; }

45 结果的输出 For (i=0;i

Printf(“输出第%d个簇的对象:”，i); For (j=0;j

If (ObjectCluster[j]==i) printf(“%d ”,j); Printf(“\n”);

Printf(“\t\t\t 簇平均值为(%d,%d)\n”, ClusterCenter[i][0], ClusterCenter[i][1]); }

五、注意事项 1、距离函数的选择 2、评价函数的计算

实验二 DBSCAN算法实现

一、实验目的

要求掌握DBSCAN 算法的聚类原理、了解DBSCAN 算法的执行过程。在此基础上，利用DBSCAN 算法对给定样本数据实现聚类过程。

实验类型：综合计划课间：4学时

二、实验内容

1、了解DBSCAN 算法的聚类原理； 2、了解DBSCAN 算法的执行过程； 3、编程实现DBSCAN 算法； 4、对给定样本数据实现聚类过程

三、实验方法

31、DBSCAN 算法的基本概念

● 对象的ε-邻域：给定对象在半径ε内的区域；

● 核心对象：若一个对象ε-邻域至少包含最小数目MinPts 个对象，则称该对

象为核心对象；

● 直接密度可达：给定一个对象集合D ，若p 是在q 的ε-邻域内，而q 是一个核

心对象，则称对象p 从对象q 出发是直接密度可达的；

● 密度可达：若存在一个对象链p1,p2, „,pn,p1=q,pn=p,对pi ∈D,pi+1是从pi

关于ε和MinPts 直接密度可达的，则称对象p 是从对象q 关于ε和MinPts 是密度可达的；

● 密度相连：若对象集合D 中存在一个对象o ，使得对象p 和q 是从o 关于ε和

MinPts 是密度可达的，则对象p 和q 是关于ε和MinPts 密度相连的； ● 噪声：一个基于密度的簇是基于密度可达性的最大的密度相连对象的集合，

不包含在任何簇中的对象被认为是噪声

32、实现的基本思想

通过检查数据集中每个对象的ε-邻域来寻找聚类。如一个点p 的ε-邻域包含多于MinPts 个对象，则创建一个p 作为核心对象的新簇。然后，DBSCAN 寻找从这些核心对象直接密度可达的对象，这个过程可能涉及一些密度可达簇的合并，当没有新的点可以被添加到任何簇时，聚类过程结束。

33 算法描述

输入：包含n 个对象的数据库，半径，最小数目MinPts; 输出：所有生成的簇，达到密度要求过程： Repeat

从数据库中抽取一个未处理的点；

IF 抽出的点是核心点 THEN 找出所有从该店密度可达的对象，形成一个簇； ELSE 抽出的点是边缘点(非核心对象) ，跳出本次循环，寻找下一点； Until 所有点都被处理

四、实验步骤 41 数据结构的分析 Struct List

{Int data[TOTALPOINT]; Int head=0; Int tail=-1;} List ClusterList; Struct Node

{ int Attribute1; int Attribute2} Node DataBase[TOTALPOINT];

Boolean Neighbor[TOTALPOINT][TOTALPOINT]; Int ClusterNo[TOTALPOINT];

42 实验数据 P186 表5-8

43 计算临近

For (i=0;i

For (j=0;j

If (dist(DataBase[i],DataBase[i])

44 聚类划分 CurrentClusterNO=0; For (i=0;i

NeighborPointsNum=0;

for (j=0;j

if (Neighbor[i][j]==true)NeighborPointsNum++; if (NeighborPointsNum)>=MinPts {

// 记录邻居中已被划分的簇号 ClusterListtail=-1; ClusterListhead=0; For (j=0;j

If (Neighbor[i][j]==true) &&(ClusterNo[j]>0)

Then {ClusterListtail++;

ClusterListdata[tail]=ClusterNo[j]} // 当前核心对象的邻居对象划分为一簇 For (j=0;j

ClusterNo[j]=CurrentClusterNO;

// 将多个簇合并

While ClusterListhead

If (ClusterNo[j]==ClusterListdata[head]) ClusterNo[j]=CurrentClusterNO;

ClusterListhead++; } } }

45 聚类结果输出

For (i=-1;i

Printf(“\n输出第%d簇的对象：”,i); For (j=0;j

If (ClusterNo[j]=i) printf(“%d\t”,j); }

五、注意事项 51 噪声数据的处理

52 已划分的类存在直接密度可达时的相关类数据的合并

实验三 ID3算法实现

一、实验目的

通过编程实现决策树算法，信息增益的计算、数据子集划分、决策树的构建过程。加深对相关算法的理解过程。实验类型：验证计划课间：4学时

二、实验内容

1、分析决策树算法的实现流程；

2、分析信息增益的计算、数据子集划分、决策树的构建过程； 3、根据算法描述编程实现算法，调试运行； 4、对课后P161的第10题进行验算，得到分析结果。

三、实验方法

算法描述：

以代表训练样本的单个结点开始建树；

若样本都在同一个类，则该结点成为树叶，并用该类标记；

否则，算法使用信息增益作为启发信息，选择能够最好地将样本分类的属性；对测试属性的每个已知值，创建一个分支，并据此划分样本；算法使用同样的过程，递归形成每个划分上的样本决策树递归划分步骤，当下列条件之一成立时停止：给定结点的所有样本属于同一类；

没有剩余属性可以进一步划分样本，在此情况下，采用多数表决进行

四、实验步骤

1、算法实现过程中需要使用的数据结构描述： Struct

{int Attrib_Col; // 当前节点对应属性 int Value; // 对应边值 Tree_Node Left_Node; // 子树

Tree_Node Right_Node // 同层其他节点 Boolean IsLeaf; // 是否叶子节点 int ClassNo; // 对应分类标号 }Tree_Node;

2、整体算法流程主程序：

InputData();

T=Build_ID3(Data,Record_No, Num_Attrib); OutputRule(T); 释放内存; 3、相关子函数： 31、 InputData()

{

输入属性集大小Num_Attrib; 输入样本数Num_Record;

分配内存Data[Num_Record][Num_Attrib];

输入样本数据Data[Num_Record][Num_Attrib]；获取类别数C(从最后一列中得到); }

32、Build_ID3(Data,Record_No, Num_Attrib)

{

Int Class_Distribute[C];

If (Record_No==0) { return Null }

N=new tree_node();

计算Data 中各类的分布情况存入Class_Distribute Temp_Num_Attrib=0;

For (i=0;i

If (Data[0][i]>=0) Temp_Num_Attrib++; If Temp_Num_Attrib==0 {

N->ClassNo=最多的类； N->IsLeaf=TRUE;

N->Left_Node=NULL;N->Right_Node=NULL; Return N;

}

If Class_Distribute中仅一类的分布大于0 {

N->ClassNo=该类； N->IsLeaf=TRUE;

N->Left_Node=NULL;N->Right_Node=NULL; Return N; }

InforGain=0;CurrentCol=-1;

For i=0;i

TempGain=Compute_InforGain(Data,Record_No,I,Num_Attrib); If (InforGain

{ InforGain=TempGain; CurrentCol=I;} }

N->Attrib_Col=CurrentCol;

//记录CurrentCol 所对应的不同值放入DiferentValue[]； I=0;Value_No=-1; While i

For (k=0;k

if (DiferentValu[k]=Data[i][CurrentCol]) flag=true; if (flag==false)

{Value_No++;DiferentValue[Value_No]=Data[i][CurrentCol] } I++; }

SubData=以Data 大小申请内存空间； For (i=0;i

k=-1;

for (j=0;j

if (Data[j][CurrentCol]==DiferentValu[i]) {k=k++;

For(int i1=0;i1

If (i1CurrentCol)SubData[k][i1]=Data[j][i1]; Else SubData[k][i1]=-1; }

N->Attrib_Col=CurrentCol; N->Value=DiferentValu[i]; N->Isleaf=false; N->ClassNo=0;

N->Left_Node=Build_ID3(SubData,k+1, Num_Attrib); N->Right_Node=new Tree_Node; N=N->Right_Node; } }

33、计算信息增益

Compute_InforGain(Data,Record_No, Col_No, Num_Attrib)

Int DifferentValue[MaxDifferentValue]; Int Total_DifferentValue;

Int s[ClassNo][MaxDifferentValue];

s=0;// 数组清0;

Total_DifferentValue=-1; For (i=0;i

J=GetPosition(DifferentValue,

Total_DifferentValue,Data[i][Col_no]); If (j

DifferentValue[Total_DifferentValue]=Data[i][Col_no]; J=Total_DifferentValue;}

S[Data[i][Num_Attrib-1]][j]++; }

Total_I=0;

For (i=0;i

Sum=0;

For(j=0;j

For (i=0;i

{ temp=0;sj=0; //sj是数据子集中属于类j 的样本个数； For (j=0;j

For (j=0;j

EA+=sj/Record_NoCompute_PI(s[j][i]/sj); }

Return total_I-EA; }

34、得到某数字在数组中的位置 GetPosition(Data, DataSize,Value) {

For (i=0;i

35、计算PiLogPi

Float Compute_PI(float pi) {

If pi=1 then return 0; Return 0-pilog2(pi); }

五、实验报告要求

1、用C 语言实现上述相关算法。

2、实验 *** 作步骤和实验结果，实验中出现的问题和解决方法。

六、注意事项

1、信息增益的计算；

2、选择相关字段后根据相关字段的取值对数据集合进行划分。 3、决策树构建的终止条件

实验四贝叶斯算法实现

一、实验目的

通过对贝叶斯算法的编程实现，加深对贝叶斯算法的理解，同时利用贝叶斯算法对简单应用实现预测分类实验类型：验证计划课间：4学时

二、实验内容

1、分析贝叶斯算法； 2、计算条件概率； 3、预测精度的计算与评估；

4、编程实现贝叶斯分类算法，并对简单应用样本数据实现预测分类

三、实验方法

1、实现贝叶斯算法

2、利用实验数据对贝叶斯算法进行检测 3、求解精确度计算 4、调试程序

5、完成整个分类与评估的过程

四、实验步骤

41 算法过程描述：

1）输入训练数据，将数据保存在DataBase 二维数组中(数组的最后一个属性对应类别标号) 2）设定训练数据集与测试数据集大小(指定从数组下标0开始到TrainSetSize-1所对应的数据为训练数据，其余为测试数据) ；

3）计算训练数据集数据中各属性在各类中的概率分布情况； 4）利用测试数据计算贝叶斯算法的分类精度； 5）输出分类结果； 42 数据处理

B、对数据中的枚举类型数据进行转换以便于数据处理：

43 计算训练数据集数据中各属性在各类中的概率分布情况如图3-1所示 44 利用测试数据计算贝叶斯算法的分类精度如图3-2所示

图3-1 训练数据集各属性的概率分布计算

图3-2 贝叶斯算法的分类精度计算

45 输出分类结果

For (i=0;i

For (j=0;j

printf(“\n\nTotal Correct is%d”,TotalCorrect);

五、注意事项

注意单个样例数据的概率计算与各字段的概率计算的关系

实验五 Apriori算法实现

一、实验目的

1、掌握Apriori 算法对于关联规则挖掘中频繁集的产生以及关联规则集合的产生过程； 2、根据算法描述编程实现算法，调试运行。并结合相关实验数据进行应用，得到分析结果。数据和删除数据的 *** 作。实验类型：验证计划课间：2学时

二、实验内容

1、频繁项集的生成与Apriori 算法实现；

2、关联规则的生成过程与Rule-generate 算法实现； 3、结合样例对算法进行分析；

三、实验步骤

编写程序完成下列算法： 1、Apriori 算法

输入：数据集D ；最小支持数minsup_count；输出：频繁项目集L L1={large 1-itemsets} For (k=2; Lk-1≠Φ; k++)

Ck=apriori-gen (Lk-1); // Ck是k 个元素的候选集 For all transactions t∈D do

begin Ct=subset(Ck,t); //Ct是所有t 包含的候选集元素 for all candidates c ∈Ct do ccount++; end

Lk={c ∈Ck| ccount ≧ minsup_count } End L=∪Lk;

2、apriori-gen (Lk-1) 候选集产生算法输入： (k-1)-频繁项目集Lk-1 输出： k-频繁项目集Ck

For all itemset p∈Lk-1 do For all itemset q∈Lk-1 do

If pitem1=qitem1, pitem2=qitem2, …,pitemk-2=qitemk-2, pitemk-1

if has_infrequent_subset(c, Lk-1) then delete c else add c to Ck End Return Ck

3、has_infrequent_subset(c, Lk-1) 功能：判断候选集的元素

输入：一个k-频繁项目集Lk-1 ，(k-1)-频繁项目集Lk-1 输出：c 是否从候选集中删除的布尔判断 For all (k-1)-subsets of c do If Not(S∈Lk-1) THEN return TRUE; Return FALSE;

4、Rule-generate(L,minconf) 输入：频繁项目集；最小信任度输出：强关联规则算法：

FOR each frequent itemset lk in L generules(lk,lk);

5、Genrules 递归算法：

Genrules(lk:frequent k-itemset, xm:frequent m-itemset) X={(m-1)-itemsets xm-1 | xm-1 in xm}; For each xm-1 in X

BEGIN conf=support(lk)/support(xm-1); IF (conf≧minconf) THEN

长沙学院信息与计算科学系数据挖掘实验指导书

BEGIN

输出规则:xm-1->(lk-xm-1),support,confidence;

IF (m-1)>1) THEN genrules(lk,xm-1);

END;

结合相关样例数据对算法进行调试，并根据相关实验结果对数据进行分析，

四、实验报告要求

1、用C 语言实现上述相关算法。

2、实验 *** 作步骤和实验结果，实验中出现的问题和解决方法。

五、注意事项

1、集合的表示及相关 *** 作的实现；

2、项目集的数据结构描述；

第21页

在实验报告中，要建立一份图表，这样更直观的反映实验数据的内在规律性，以便于归纳总结。先建立统计表，对表中数据建立图表，根据图表的趋势分析总结实验的内在规律性。

科技实验报告是描述、记录某个科研课题过程和结果的一种科技应用文体。撰写实验报告是科技实验工作不可缺少的重要环节。虽然实验报告与科技论文一样都以文字形式阐明了科学研究的成果，但二者在内容和表达方式上仍有所差别。

科技论文一般是把成功的实验结果作为论证科学观点的根据。实验报告则客观地记录实验的过程和结果，着重告知一项科学事实，不夹带实验者的主观看法。

扩展资料：

实验报告以客观的科学研究的事实为写作对象，它是对科学实验的过程和结果的真实记录，虽然也要表明对某些问的观点和意见，但这些观点和意见都是在客观事实的基础上提出的。

确证性是指实验报告中记载的实验结果能被任何人所重复和证实，也就是说，任何人按给定的条件去重复这顶实验，无论何时何地，都能观察到相同的科学现象，得到同样的结果。

参考资料来源：百度百科-实验报告

姚津泓实验作业网页链接可以看看

--实验一

create database test1

(name=test1,

filename='d:\3116004357姚津泓\test1mdf',

size=10,

maxsize=50,

filegrowth=5)

log on

(name=test1_log,

filename='d:\3116004357姚津泓\test1ldf',

size=5mb,

maxsize=25mb,

filegrowth=5mb)

create database test2

(name=test11,

filename='d:\3116004357姚津泓\test11mdf',

size=10,

maxsize=50,

filegrowth=5),

(name=test22,

filename='d:\3116004357姚津泓\test22ndf',

size=10,

maxsize=50,

filegrowth=5),

(name=test33,

filename='d:\3116004357姚津泓\test33ndf',

size=10,

maxsize=50,

filegrowth=5)

log on

(name=test11_log,

filename='d:\3116004357姚津泓\test11ldf',

size=5mb,

maxsize=25mb,

filegrowth=5mb),

(name=test22_log,

filename='d:\3116004357姚津泓\test22ldf',

size=5mb,

maxsize=25mb,

filegrowth=5mb)

create database test3

(name=dab1,

filename='d:\3116004357姚津泓\dab1mdf',

size=10,

maxsize=50,

filegrowth=5),

filegroup fg11 --第一个文件组

(name=dab2,

filename='d:\3116004357姚津泓\dab2ndf',

size=10,

maxsize=50,

filegrowth=5),

filegroup fg22 --第二个文件组

(name=dat1,

filename='d:\3116004357姚津泓\dat1ndf',

size=10,

maxsize=50,

filegrowth=5),

(name=dat2,

filename='d:\3116004357姚津泓\dat2ndf',

size=10,

maxsize=50,

filegrowth=5),

filegroup fg33--第三个文件组

(name=daz1,

filename='d:\3116004357姚津泓\daz1ndf',

size=10,

maxsize=50,

filegrowth=5),

(name=daz2,

filename='d:\3116004357姚津泓\daz2ndf',

size=10,

maxsize=50,

filegrowth=5)

alter database test1

add file

(name=te,

filename='d:\3116004357姚津泓\tendf',

size=10,

maxsize=50,

filegrowth=5

)

alter database test2

modify file

(name=test11,

filename='d:\3116004357姚津泓\test11mdf',

maxsize=55

)

drop database test1

--实验2--

create database 实验

create schema yaojinhong

create table yaojinhong仓库

(

仓库号char(6)primary key check (仓库号like'[A-Z][A-Z][0-9][0-9][0-9][0-9]'),

城市char(10) unique not null,

面积 int check(面积>=50)

)

create table yaojinhong职工

(

职工号char(8)primary key check (职工号like'[A-Z][A-Z][0-9][0-9][0-9][0-9][0-9][0-9]'),

仓库号char(6)constraint ck foreign key references yaojinhong仓库(仓库号),

工资 money check (工资>=1000 and 工资<=10000)

)

create table yaojinhong供应商

(

供应商号 char(4)primary key check (供应商号like'[S][0-9][0-9][0-9]'),

供应商名 char(16),

地址char(30),

)

create table yaojinhong订购单

(职工号 char(8) not null foreign key references yaojinhong职工(职工号),

供应商号 char(4) null constraint supply foreign key references yaojinhong供应商(供应商号) on delete set null,

订购单号 char(6) primary key check(订购单号 like 'OR[0-9][0-9][0-9][0-9]'),

订购日期 datetime default getdate(),

金额 money default null

)

create table yaojinhong订购单明细

(订购单号 char(6) not null foreign key references yaojinhong订购单(订购单号),

序号 char(2),

产品名称 char(20),

单价 money default null check(单价>0),

数量 int not null check(数量>0),

primary key(订购单号,序号)

)

alter table yaojinhong订购单

add 完成日期 datetime default null

alter table yaojinhong订购单明细

add check(数量 between 0 and 1000)

alter table yaojinhong订购单明细

alter column 数量 int not null alter table yaojinhong供应商

alter column 供应商名 varchar(30)

实验3

insert into yaojinhong仓库 values('QW0001','广州',500)

insert into yaojinhong仓库 values('QW0002','上海',900)

insert into yaojinhong仓库 values('QW0003','北京',250)

insert into yaojinhong仓库 values('QW0004','纽约',1000)

insert into yaojinhong仓库 values('QW0005','深圳',650)

insert into yaojinhong职工 values('ZG000001','QW0005',3000)

insert into yaojinhong职工 values('ZG000002','QW0001',5600)

insert into yaojinhong职工 values('ZG000003','QW0004',6600)

insert into yaojinhong职工 values('ZG000004','QW0002',3800)

insert into yaojinhong职工 values('ZG000005','QW0005',3900)

insert into yaojinhong职工 values('ZG000006','QW0001',4600)

insert into yaojinhong职工 values('ZG000007','QW0003',4000)

insert into yaojinhong职工 values('ZG000008','QW0003',5000)

insert into yaojinhong职工 values('ZG000009','QW0002',4800)

insert into yaojinhong职工 values('ZG000010','QW0004',6000)

insert into yaojinhong供应商 values('S001','华广','深圳')

insert into yaojinhong供应商 values('S002','广工','广州')

insert into yaojinhong供应商 values('S003','美的','茂名')

insert into yaojinhong供应商 values('S004','乐视','深圳')

insert into yaojinhong供应商 values('S005','康佳','广州')

insert into yaojinhong订购单 values('ZG000007','S005','OR0001','2015-1-6',5000,'2015-2-5')

insert into yaojinhong订购单 values('ZG000002','S001','OR0002','2015-2-3',10000,'2015-3-4')

insert into yaojinhong订购单 values('ZG000003','S004','OR0003','2015-2-17',3000,'2015-5-16')

insert into yaojinhong订购单 values('ZG000006','S002','OR0004','2015-2-16',9000,'2015-4-18')

insert into yaojinhong订购单 values('ZG000010','S005','OR0005','2015-3-20',8000,'2015-6-27')

insert into yaojinhong订购单 values('ZG000001','S001','OR0006','2015-3-22',7500,'2015-7-29')

insert into yaojinhong订购单 values('ZG000006','S003','OR0021','2015-2-15',4600,'2015-10-13')

insert into yaojinhong订购单 values('ZG000004','S002','OR0007','2015-2-23',8500,'2015-8-29')

insert into yaojinhong订购单 values('ZG000003','S005','OR0008','2015-1-5',3600,'2015-11-11')

insert into yaojinhong订购单 values('ZG000001','S004','OR0009','2015-1-31',7600,'2015-12-14')

insert into yaojinhong订购单 values('ZG000007','S001','OR0010','2015-3-25',12000,'2015-7-30')

insert into yaojinhong订购单 values('ZG000008','S002','OR0011','2015-2-26',4600,'2015-9-27')

insert into yaojinhong订购单 values('ZG000010','S002','OR0012','2015-1-28',3400,'2015-11-21')

insert into yaojinhong订购单 values('ZG000009','S004','OR0013','2015-3-19',2300,'2015-10-24')

insert into yaojinhong订购单 values('ZG000007','S005','OR0014','2015-2-23',9000,'2015-9-21')

insert into yaojinhong订购单 values('ZG000008','S003','OR0015','2015-2-27',6400,'2015-12-23')

insert into yaojinhong订购单 values('ZG000002','S001','OR0016','2015-1-30',7900,'2015-6-30')

insert into yaojinhong订购单 values('ZG000005','S004','OR0017','2015-1-27',20000,'2015-8-18')

insert into yaojinhong订购单 values('ZG000009','S004','OR0018','2015-3-5',13000,'2015-7-31')

insert into yaojinhong订购单 values('ZG000004','S002','OR0019','2015-3-14',7000,'2015-6-17')

insert into yaojinhong订购单 values('ZG000006','S005','OR0020','2015-2-21',4300,'2015-5-25')

insert into yaojinhong订购单明细 values('OR0020','01','沐浴露',32,240)

insert into yaojinhong订购单明细 values('OR0001','02','洗衣粉',30,125)

insert into yaojinhong订购单明细 values('OR0012','03','洗衣液',39,59)

insert into yaojinhong订购单明细 values('OR0014','04','香皂',14,99)

insert into yaojinhong订购单明细 values('OR0004','05','盐',2,169)

insert into yaojinhong订购单明细 values('OR0005','06','酱油',14,65)

insert into yaojinhong订购单明细 values('OR0011','07','化妆品',26,24)

insert into yaojinhong订购单明细 values('OR0019','08','洗面奶',39,68)

insert into yaojinhong订购单明细 values('OR0008','09','面膜',5,147)

insert into yaojinhong订购单明细 values('OR0003','10','花生油',36,258)

insert into yaojinhong订购单明细 values('OR0017','11','鼠标',69,72)

insert into yaojinhong订购单明细 values('OR0015','12','鼠标垫',18,64)

insert into yaojinhong订购单明细 values('OR0016','13','移动电源',58,69)

insert into yaojinhong订购单明细 values('OR0012','14','插座',37,169)

insert into yaojinhong订购单明细 values('OR0011','15','牛奶',72,111)

insert into yaojinhong订购单明细 values('OR0020','16','洗洁精',9,114)

insert into yaojinhong订购单明细 values('OR0019','17','洁厕液',6,300)

insert into yaojinhong订购单明细 values('OR0010','18','鸡蛋',14,124)

insert into yaojinhong订购单明细 values('OR0009','19','牛肉',38,300)

insert into yaojinhong订购单明细 values('OR0016','20','内裤',59,654)

insert into yaojinhong订购单明细 values('OR0018','21','鞋子',299,300)

insert into yaojinhong订购单明细 values('OR0015','22','手表',890,34)

insert into yaojinhong订购单明细 values('OR0005','23','钱包',129,124)

insert into yaojinhong订购单明细 values('OR0008','24','行李箱',344,64)

insert into yaojinhong订购单明细 values('OR0014','25','手袋',3,874)

insert into yaojinhong订购单明细 values('OR0018','26','篮球',360,59)

insert into yaojinhong订购单明细 values('OR0003','27','足球',260,36)

insert into yaojinhong订购单明细 values('OR0005','28','羽毛球拍',78,69)

insert into yaojinhong订购单明细 values('OR0007','29','乒乓球拍',89,145)

insert into yaojinhong订购单明细 values('OR0020','30','羽毛球',5,645)

insert into yaojinhong订购单明细 values('OR0013','31','乒乓球',3,542)

insert into yaojinhong订购单明细 values('OR0016','32','牙膏',23,200)

insert into yaojinhong订购单明细 values('OR0009','33','牙刷',6,456)

insert into yaojinhong订购单明细 values('OR0019','34','防晒霜',56,65)

insert into yaojinhong订购单明细 values('OR0017','35','水杯',39,1187)

insert into yaojinhong订购单明细 values('OR0010','36','拖把',15,187)

insert into yaojinhong订购单明细 values('OR0004','37','扫把',6,200)

insert into yaojinhong订购单明细 values('OR0005','38','垃圾桶',16,254)

insert into yaojinhong订购单明细 values('OR0006','39','书',46,688)

insert into yaojinhong订购单明细 values('OR0016','40','卫生纸',13,500)

insert into yaojinhong订购单明细 values('OR0020','41','相机',3698,32)

insert into yaojinhong订购单明细 values('OR0013','42','手机',2000,200)

insert into yaojinhong订购单明细 values('OR0017','43','音响',500,143)

insert into yaojinhong订购单明细 values('OR0001','44','吸尘器',1688,40)

insert into yaojinhong订购单明细 values('OR0012','45','油烟机',3500,10)

insert into yaojinhong订购单明细 values('OR0010','46','台式电脑',4000,25)

insert into yaojinhong订购单明细 values('OR0013','47','空调',50,230)

insert into yaojinhong订购单明细 values('OR0005','48','电视机',1300,100)

insert into yaojinhong订购单明细 values('OR0016','49','洗衣机',3400,15)

insert into yaojinhong订购单明细 values('OR0011','50','笔记本',6000,20)

insert into yaojinhong仓库 values('QW0001','惠州',600)

原因：违反了PRIMARY KEY 约束'PK__仓库__530C599C7F60ED59'。不能在对象'yaojinhong仓库' 中插入重复键。语句已终止。

insert into yaojinhong职工 values('ZG000011','QW0009',3000)

原因：仓库号列参照仓库表的仓库号，此时在仓库表中找不到仓库号为QW0009的仓库。INSERT 语句与FOREIGN KEY 约束"FK__职工__仓库号__0AD2A005"冲突。该冲突发生于数据库"实验"，表"yaojinhong仓库", column '仓库号'。

insert into yaojinhong仓库 values('QW0006','天津',30)

原因：在定义时，面积要大于等于50，这里面积为30，明显违反了用户定义完整性

delete yaojinhong仓库 where 城市='北京'

删除 *** 作失败。因为有职工参照了干记录

delete yaojinhong供应商 where 供应商号='S002'

因为删除参照完整性规则定义为set null

alter table yaojinhong职工

drop constraint ck

alter table yaojinhong职工

drop column 仓库号

alter table yaojinhong职工

add 仓库号 char(6)constraint ck foreign key references yaojinhong仓库

on delete cascade

on update cascade

update yaojinhong职工 set 仓库号='QW0006' where 职工号='ZG000002'

更新 *** 作失败，因为职工表所参考的仓库表中不存在仓库号为QW0006的仓库。

update yaojinhong仓库 set 仓库号=null where 仓库号='QW0001'

更新 *** 作失败，因为仓库号是关键字，不能为空。

update yaojinhong仓库 set 面积=30 where 仓库号='QW0001'

更新 *** 作失败，因为面积被定义约束大于或等于50，此处面积=30，显然违反了约束。

update yaojinhong职工 set 工资=(工资+(工资01))

update yaojinhong订购单 set 金额=(select SUM(单价数量) from yaojinhong订购单明细

where 订购单明细订购单号=订购单订购单号)

delete yaojinhong职工 where 仓库号 in (select 仓库号 from yaojinhong仓库 where 城市='北京')

delete yaojinhong订购单 where 供应商号 in (select 供应商号 from yaojinhong供应商 where 供应商名='广工')

实验4

1 select distinct 工资 from yaojinhong职工

select all 工资 from yaojinhong职工

2 select from yaojinhong仓库

3 select 职工号 from yaojinhong职工 where 工资>5000

4 select from yaojinhong仓库 where 仓库号 in(select 仓库号 from yaojinhong职工 where 工资>5000)

5 select 职工号 from yaojinhong职工 where 仓库号 in ('QW0005','QW0002') and 工资<5000

6 select from yaojinhong职工 where 工资 between 3000 and 5000

7 select from yaojinhong供应商 where 供应商名 like '%公司'

8 select from yaojinhong仓库 where 城市!='北京

9 select from yaojinhong订购单 where 供应商号 is null

10 select from yaojinhong订购单 where 供应商号 is not null

11 select from yaojinhong职工 order by 工资 ASC

12 select from yaojinhong职工 order by 仓库号 ASC,工资 DESC

13 select 职工号,城市 from yaojinhong职工 join yaojinhong仓库 on 职工仓库号=仓库仓库号 where 工资>6000

14 select 职工号,城市 from yaojinhong职工 join yaojinhong仓库 on 职工仓库号=仓库仓库号 where 面积>700

16 select from yaojinhong仓库 cross join yaojinhong职工

17 select from yaojinhong仓库 cross join yaojinhong职工

where 仓库仓库号=职工仓库号

18 select 供应商供应商号,供应商名,订购单号,订购日期 from yaojinhong供应商 join yaojinhong订购单

on 供应商供应商号=订购单供应商号

19 select 供应商供应商号,供应商名,订购单号,订购日期 from yaojinhong供应商 left join yaojinhong订购单

on 供应商供应商号=订购单供应商号

20 select 供应商供应商号,供应商名,订购单号,订购日期 from yaojinhong供应商 right join yaojinhong订购单 on 供应商供应商号=订购单供应商号

21 select 供应商供应商号,供应商名,订购单号,订购日期 from yaojinhong供应商 full join yaojinhong订购单 on 供应商供应商号=订购单供应商号

22 select 城市 from yaojinhong仓库 where 仓库号 in

(select 仓库号 from yaojinhong职工 where 工资=3300)

23 select from yaojinhong仓库 where 仓库号 not in

(select 仓库号 from yaojinhong职工 where 工资<5000)

24 select from yaojinhong职工 where 工资 in

(select 工资 from yaojinhong职工 where 职工号='ZG000001')

and 职工号!='ZG000001'

25 select 城市 from yaojinhong仓库 where 仓库号 in

(select 仓库号 from yaojinhong职工 where 职工号 in

(select 职工号 from yaojinhong订购单 where 供应商号 in

(select 供应商号 from yaojinhong供应商 where 地址='广州')))

26 select 供应商名 from yaojinhong供应商 join yaojinhong订购单 on 供应商供应商号=订购单供应商号 join yaojinhong职工 on 订购单职工号=职工职工号 join yaojinhong仓库 on 职工仓库号=仓库仓库号 where 地址='广州'and 城市='广州'

select 供应商名

from yaojinhong供应商 where 地址='广州' and 供应商号 in

(select 供应商号 from yaojinhong订购单 join yaojinhong职工 on 订购单职工号=职工职工号

join yaojinhong仓库 on 职工仓库号=仓库仓库号 where 城市='广州')

27 select 仓库号 from yaojinhong仓库 where 仓库号 in

(select 仓库号 from yaojinhong职工 where 工资>any

(select 工资 from yaojinhong职工 join yaojinhong仓库 on 职工仓库号=仓库仓库号

where 仓库仓库号='QW0001')and 仓库号!='QW0001')

28 select 仓库号 from yaojinhong仓库 where 仓库号 in

(select 仓库号 from yaojinhong职工 where 工资>all

(select 工资 from yaojinhong职工 join yaojinhong仓库 on 职工仓库号=仓库仓库号

where 仓库仓库号='QW0001'))

29 select from yaojinhong订购单 a where 金额=

(select MAX(金额) from yaojinhong订购单 b where a职工号=b职工号)

order by 职工号 ASC

30 select from yaojinhong仓库 where exists(select from yaojinhong职工 where 职工号 is null and 职工仓库号=仓库仓库号)

31 select from yaojinhong仓库 where not exists(select from yaojinhong职工 where 职工号 is null and 职工仓库号=仓库仓库号)

32 select COUNT(distinct 城市)城市数目 from yaojinhong仓库 where 城市 is not null

33 select SUM(工资)需要支付职工工资总数 from yaojinhong职工

34 select SUM(工资)北京和上海的仓库职工的工资总和 from yaojinhong职工 join yaojinhong仓库 on 职工仓库号=仓库仓库号

where 城市='北京' or 城市='上海'

35 select AVG(面积)平均面积 from yaojinhong仓库 where 仓库号 not in

(select 仓库号 from yaojinhong职工 where 工资<6000)

36 select max(金额)工资大于的职工所经手的订购单最高金额 from yaojinhong订购单 where 职工号 in

(select 职工号 from yaojinhong职工 where 工资>6000)

37 select 仓库号,AVG(工资)平均工资 from yaojinhong职工

group by 仓库号

38 select 仓库号,max(金额)最高金额,MIN(金额)最低金额,AVG(金额)平均金额 from yaojinhong职工 join yaojinhong订购单 on 职工职工号=订购单职工号 group by 仓库号

39 select 订购单订购单号,AVG(金额)平均金额 from yaojinhong订购单 join yaojinhong订购单明细 on 订购单订购单号=订购单明细订购单号

group by 订购单订购单号 having COUNT(订购单订购单号)>=5

40 select 仓库号,职工号,工资 from yaojinhong职工

order by 仓库号

compute avg(工资),sum(工资)by 仓库号

compute avg(工资),sum(工资)

41select 订购单明细订购单号,序号,产品名称,单价,数量,金额

from yaojinhong订购单明细 join yaojinhong订购单 on

订购单订购单号=订购单明细订购单号 order by 订购单订购单号

compute avg(金额),sum(金额)by 订购单订购单号

compute avg(金额),sum(金额)

42 select from yaojinhong订购单

compute avg(金额),sum(金额)

实验5

一

(1) 基于单个表按投影 *** 作定义视图。

create view yaojinhong仓库视图 as select from yaojinhong仓库

(2) 基于单个表按选择 *** 作定义视图。

create view yaojinhong仓库视图1 as select from yaojinhong仓库 where 城市='广州'

(3) 基于单个表按选择和投影 *** 作定义视图。

create view yaojinhong仓库视图2 as select 仓库号,面积 from yaojinhong仓库 where 城市='广州'

(4) 基于多个表根据连接 *** 作定义视图。

create view yaojinhong视图3 as select 职工号,城市,工资 from yaojinhong职工 join yaojinhong仓库 on 职工仓库号=仓库仓库号

(5) 基于多个表根据嵌套查询定义视图。

create view yaojinhong视图4 as select from yaojinhong仓库 where 仓库号 in

(select 仓库号 from yaojinhong职工 where 工资>4000)

(6) 定义含有虚字段的视图。

create view yaojinhong虚字段视图(仓库号,城市,面积) as select 仓库号,城市,面积2 from yaojinhong仓库

2、分别在定义的视图上设计一些查询（包括基于视图和基本表的连接或嵌套查询）。

select from yaojinhong仓库视图

select from yaojinhong仓库视图1 where 城市='广州'

select 仓库号,面积 from yaojinhong仓库视图2

select 职工号,城市,工资 from yaojinhong职工 join yaojinhong仓库视图 on 职工仓库号=仓库视图仓库号

select from yaojinhong仓库视图 where 仓库号 in

(select 仓库号 from yaojinhong职工 where 工资>4000)

3、在不同的视图上分别设计一些插入、更新和删除 *** 作，分情况讨论哪些 *** 作可以成功完成，哪些 *** 作不能完成，并分析原因。

insert into yaojinhong仓库视图(仓库号,城市) values('QW0008','长沙')

update yaojinhong仓库视图 set 面积=650 where 仓库号='QW0008'

insert into yaojinhong仓库视图 values('QW0008','长沙',500)

update yaojinhong仓库视图 set 面积=700 where 仓库号='QW0001'

delete yaojinhong仓库视图 where 仓库号='QW0008'

Origin 软件在物理化学实验数据处理中的应用　物理化学实验中常见的数据处理有: ①公式计算; ②用实验数据作图或对实验数据计算后作图; ③线性拟合,求截距或斜率; ④非线性曲线拟合; ⑤作切线,求截距或斜率。目前学生多用坐标纸手工作图;手工拟合直线,求斜率或截距;手工作曲线和切线,求斜率或截距。这种手工作图的方法不仅费时费力,而且误差较大。本来实验数据就有一定的误差,加上数据处理带来的较大误差,可想而知,所得结果的误差就更大。随着计算机应用的深入发展,计算机作图软件越来越多。利用Origin 软件可方便地进行作图、线性拟合、非线性曲线拟合等数据处理,能够满足物化实验数据处理的要求。下面介绍用Origin 软件对物化实验数据处理的方法。1Origin 软件的一般用法1 1数据作图Origin 可绘制散点图、点线图、柱形图、条形图或饼图以及双Y轴图形等,在物化实验中通常使用散点图或点线图。Origin 有如下基本功能: ①输入数据并作图, ②将数据计算后作图, ③数据排序, ④选择需要的数据范围作图, ⑤数据点屏蔽。1 2线性拟合当绘出散点图或点线图后,选择Analysis 菜单中的Fit Linear 或Tools 菜单中的Linear Fit ,即可对图形进行线性拟合。结果记录中显示拟合直线的公式、斜率和截距的值及其误差,相关系数和标准偏差等数据。在线性拟合时,可屏蔽某些偏差较大的数据点,以降低拟合直线的偏差。1 3非线性曲线拟合Origin 提供了多种非线性曲线拟合方式: ①在Analysis 菜单中提供了如下拟合函数:多项式拟合、指数衰减拟合、指数增长拟合、S 形拟合、Gaussian 拟合、Lorentzian 拟合和多峰拟合;在Tools 菜单中提供了多项式拟合和S 形拟合。②在Analysis 菜单中的Non2linear Curve Fit 选项提供了许多拟合函数的公式和图形。③Analysis 菜单中的Non2linear Curve Fit 选项可让用户自定义函数。在处理实验数据时,可根据数据图形的形状和趋势选择合适的函数和参数,以达到最佳拟合效果。多项式拟合适用于多种曲线,且方便易行, *** 作如下:(1) 对数据作散点图或点线图。(2) 选择Analysis 菜单中的Fit Polynomial 或Tools 菜单中的Polynomial Fit ,打开多项式拟合对话框,设定多项式的级数、拟合曲线的点数、拟合曲线中X 的范围。(3) 点击OK或Fit 即可完成多项式拟合。结果记录中显示:拟合的多项式公式、参数的值及其误差, R2 (相关系数的平方) 、SD (标准偏差) 、N (曲线数据的点数) 、P 值( R2 = 0 的概率)等。

以上就是关于一文看懂数据清洗：缺失值、异常值和重复值的处理全部的内容，包括:一文看懂数据清洗：缺失值、异常值和重复值的处理、数据库技术应数据管理的任务而生,主要研究如何存储、使用和管理数据、数据库如何管理等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/10169382.html

一文看懂数据清洗：缺失值、异常值和重复值的处理

发表评论

评论列表（0条）

​一文看懂数据清洗：缺失值、异常值和重复值的处理

发表评论

评论列表（0条）

一文看懂数据清洗：缺失值、异常值和重复值的处理