数据分析中的缺失值处理_工具

数据分析中的缺失值处理

没有高质量的数据，就没有高质量的数据挖掘结果，数据值缺失是数据分析中经常遇到的问题之一。当缺失比例很小时，可直接对缺失记录进行舍弃或进行手工处理。但在实际数据中，往往缺失数据占有相当的比重。这时如果手工处理非常低效，如果舍弃缺失记录，则会丢失大量信息，使不完全观测数据与完全观测数据间产生系统差异，对这样的数据进行分析，你很可能会得出错误的结论。

造成数据缺失的原因

现实世界中的数据异常杂乱，属性值缺失的情况经常发全甚至是不可避免的。造成数据缺失的原因是多方面的：

信息暂时无法获取。例如在医疗数据库中，并非所有病人的所有临床检验结果都能在给定的时间内得到，就致使一部分属性值空缺出来。

信息被遗漏。可能是因为输入时认为不重要、忘记填写了或对数据理解错误而遗漏，也可能是由于数据采集设备的故障、存储介质的故障、传输媒体的故障、一些人为因素等原因而丢失。

有些对象的某个或某些属性是不可用的。如一个未婚者的配偶姓名、一个儿童的固定收入状况等。

有些信息（被认为）是不重要的。如一个属性的取值与给定语境是无关。

获取这些信息的代价太大。

系统实时性能要求较高。即要求得到这些信息前迅速做出判断或决策。

对缺失值的处理要具体问题具体分析，为什么要具体问题具体分析呢？因为属性缺失有时并不意味着数据缺失，缺失本身是包含信息的，所以需要根据不同应用场景下缺失值可能包含的信息进行合理填充。下面通过一些例子来说明如何具体问题具体分析，仁者见仁智者见智，仅供参考：

“年收入”：商品推荐场景下填充平均值，借贷额度场景下填充最小值；

“行为时间点”：填充众数；

“价格”：商品推荐场景下填充最小值，商品匹配场景下填充平均值；

“人体寿命”：保险费用估计场景下填充最大值，人口估计场景下填充平均值；

“驾龄”：没有填写这一项的用户可能是没有车，为它填充为0较为合理；

”本科毕业时间”：没有填写这一项的用户可能是没有上大学，为它填充正无穷比较合理；

“婚姻状态”：没有填写这一项的用户可能对自己的隐私比较敏感，应单独设为一个分类，如已婚1、未婚0、未填-1。

缺失的类型

在对缺失数据进行处理前，了解数据缺失的机制和形式是十分必要的。将数据集中不含缺失值的变量称为完全变量，数据集中含有缺失值的变量称为不完全变量。从缺失的分布来将缺失可以分为完全随机缺失，随机缺失和完全非随机缺失。

完全随机缺失（missing completely at random,MCAR）：指的是数据的缺失是完全随机的，不依赖于任何不完全变量或完全变量，不影响样本的无偏性。如家庭地址缺失。

随机缺失(missing at random,MAR)：指的是数据的缺失不是完全随机的，即该类数据的缺失依赖于其他完全变量。例如财务数据缺失情况与企业的大小有关。

非随机缺失(missing not at random,MNAR)：指的是数据的缺失与不完全变量自身的取值有关。如高收入人群的不原意提供家庭收入。

对于随机缺失和非随机缺失,删除记录是不合适的,随机缺失可以通过已知变量对缺失值进行估计；而非随机缺失还没有很好的解决办法。

说明:对于分类问题，可以分析缺失的样本中，类别之间的比例和整体数据集中，类别的比例

缺失值处理的必要性

数据缺失在许多研究领域都是一个复杂的问题。对数据挖掘来说，缺省值的存在，造成了以下影响：

系统丢失了大量的有用信息；

系统中所表现出的不确定性更加显著，系统中蕴涵的确定性成分更难把握；

包含空值的数据会使挖掘过程陷入混乱，导致不可靠的输出。

数据挖掘算法本身更致力于避免数据过分拟合所建的模型，这一特性使得它难以通过自身的算法去很好地处理不完整数据。因此，缺省值需要通过专门的方法进行推导、填充等，以减少数据挖掘算法与实际应用之间的差距。

缺失值处理方法的分析与比较

处理不完整数据集的方法主要有三大类：删除元组、数据补齐、不处理。

删除元组

也就是将存在遗漏信息属性值的对象（元组，记录）删除，从而得到一个完备的信息表。这种方法简单易行，在对象有多个属性缺失值、被删除的含缺失值的对象与初始数据集的数据量相比非常小的情况下非常有效，类标号缺失时通常使用该方法。

然而，这种方法却有很大的局限性。它以减少历史数据来换取信息的完备，会丢弃大量隐藏在这些对象中的信息。在初始数据集包含的对象很少的情况下，删除少量对象足以严重影响信息的客观性和结果的正确性；因此，当缺失数据所占比例较大，特别当遗漏数据非随机分布时，这种方法可能导致数据发生偏离，从而引出错误的结论。

说明:删除元组，或者直接删除该列特征，有时候会导致性能下降。

数据补齐

这类方法是用一定的值去填充空值，从而使信息表完备化。通常基于统计学原理，根据初始数据集中其余对象取值的分布情况来对一个缺失值进行填充。数据挖掘中常用的有以下几种补齐方法：

人工填写（filling manually）

由于最了解数据的还是用户自己，因此这个方法产生数据偏离最小，可能是填充效果最好的一种。然而一般来说，该方法很费时，当数据规模很大、空值很多的时候，该方法是不可行的。

特殊值填充（Treating Missing Attribute values as Special values）

将空值作为一种特殊的属性值来处理，它不同于其他的任何属性值。如所有的空值都用“unknown”填充。这样将形成另一个有趣的概念，可能导致严重的数据偏离，一般不推荐使用。

平均值填充（Mean/Mode Completer）

将初始数据集中的属性分为数值属性和非数值属性来分别进行处理。

如果空值是数值型的，就根据该属性在其他所有对象的取值的平均值来填充该缺失的属性值；

如果空值是非数值型的，就根据统计学中的众数原理，用该属性在其他所有对象的取值次数最多的值(即出现频率最高的值)来补齐该缺失的属性值。与其相似的另一种方法叫条件平均值填充法（Conditional Mean Completer）。在该方法中，用于求平均的值并不是从数据集的所有对象中取，而是从与该对象具有相同决策属性值的对象中取得。

这两种数据的补齐方法，其基本的出发点都是一样的，以最大概率可能的取值来补充缺失的属性值，只是在具体方法上有一点不同。与其他方法相比，它是用现存数据的多数信息来推测缺失值。

热卡填充（Hot deck imputation，或就近补齐）

对于一个包含空值的对象，热卡填充法在完整数据中找到一个与它最相似的对象，然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标准来对相似进行判定。该方法概念上很简单，且利用了数据间的关系来进行空值估计。这个方法的缺点在于难以定义相似标准，主观因素较多。

K最近距离邻法（K-means clustering）

先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本，将这K个值加权平均来估计该样本的缺失数据。

使用所有可能的值填充（Assigning All Possible values of the Attribute）

用空缺属性值的所有可能的属性取值来填充，能够得到较好的补齐效果。但是，当数据量很大或者遗漏的属性值较多时，其计算的代价很大，可能的测试方案很多。

组合完整化方法（Combinatorial Completer）

用空缺属性值的所有可能的属性取值来试，并从最终属性的约简结果中选择最好的一个作为填补的属性值。这是以约简为目的的数据补齐方法，能够得到好的约简结果；但是，当数据量很大或者遗漏的属性值较多时，其计算的代价很大。

回归（Regression）

基于完整的数据集，建立回归方程。对于包含空值的对象，将已知属性值代入方程来估计未知属性值，以此估计值来进行填充。当变量不是线性相关时会导致有偏差的估计。

期望值最大化方法（Expectation maximization，EM）

EM算法是一种在不完全数据情况下计算极大似然估计或者后验分布的迭代算法。在每一迭代循环过程中交替执行两个步骤：E步（Excepctaion step,期望步），在给定完全数据和前一次迭代所得到的参数估计的情况下计算完全数据对应的对数似然函数的条件期望；M步（Maximzation step，极大化步），用极大化对数似然函数以确定参数的值，并用于下步的迭代。算法在E步和M步之间不断迭代直至收敛，即两次迭代之间的参数变化小于一个预先给定的阈值时结束。该方法可能会陷入局部极值，收敛速度也不是很快，并且计算很复杂。

多重填补（Multiple Imputation，MI）

多重填补方法分为三个步骤：

为每个空值产生一套可能的填补值，这些值反映了无响应模型的不确定性；每个值都被用来填补数据集中的缺失值，产生若干个完整数据集合。

每个填补数据集合都用针对完整数据集的统计方法进行统计分析。

对来自各个填补数据集的结果进行综合，产生最终的统计推断，这一推断考虑到了由于数据填补而产生的不确定性。该方法将空缺值视为随机样本，这样计算出来的统计推断可能受到空缺值的不确定性的影响。该方法的计算也很复杂。

C45方法

通过寻找属性间的关系来对遗失值填充。它寻找之间具有最大相关性的两个属性，其中没有遗失值的一个称为代理属性，另一个称为原始属性，用代理属性决定原始属性中的遗失值。这种基于规则归纳的方法只能处理基数较小的名词型属性。

就几种基于统计的方法而言，删除元组法和平均值法差于热卡填充法、期望值最大化方法和多重填充法；回归是比较好的一种方法，但仍比不上hot deck和EM；EM缺少MI包含的不确定成分。值得注意的是，这些方法直接处理的是模型参数的估计而不是空缺值预测本身。它们合适于处理无监督学习的问题，而对有监督学习来说，情况就不尽相同了。譬如，你可以删除包含空值的对象用完整的数据集来进行训练，但预测时你却不能忽略包含空值的对象。另外，C45和使用所有可能的值填充方法也有较好的补齐效果，人工填写和特殊值填充则是一般不推荐使用的。

不处理

补齐处理只是将未知值补以我们的主观估计值，不一定完全符合客观事实，在对不完备信息进行补齐处理的同时，我们或多或少地改变了原始的信息系统。而且，对空值不正确的填充往往将新的噪声引入数据中，使挖掘任务产生错误的结果。因此，在许多情况下，我们还是希望在保持原始信息不发生变化的前提下对信息系统进行处理。

不处理缺失值，直接在包含空值的数据上进行数据挖掘的方法包括贝叶斯网络和人工神经网络等。

贝叶斯网络提供了一种自然的表示变量间因果信息的方法，用来发现数据间的潜在关系。在这个网络中，用节点表示变量，有向边表示变量间的依赖关系。贝叶斯网络仅适合于对领域知识具有一定了解的情况，至少对变量间的依赖关系较清楚的情况。否则直接从数据中学习贝叶斯网的结构不但复杂性较高（随着变量的增加，指数级增加），网络维护代价昂贵，而且它的估计参数较多，为系统带来了高方差，影响了它的预测精度。

人工神经网络可以有效的对付缺失值，但人工神经网络在这方面的研究还有待进一步深入展开。

知乎上的一种方案：

4把变量映射到高维空间。比如性别，有男、女、缺失三种情况，则映射成3个变量：是否男、是否女、是否缺失。连续型变量也可以这样处理。比如Google、百度的CTR预估模型，预处理时会把所有变量都这样处理，达到几亿维。这样做的好处是完整保留了原始数据的全部信息、不用考虑缺失值、不用考虑线性不可分之类的问题。缺点是计算量大大提升。

而且只有在样本量非常大的时候效果才好，否则会因为过于稀疏，效果很差。

总结

大多数数据挖掘系统都是在数据挖掘之前的数据预处理阶段采用第一、第二类方法来对空缺数据进行处理。并不存在一种处理空值的方法可以适合于任何问题。无论哪种方式填充，都无法避免主观因素对原系统的影响，并且在空值过多的情形下将系统完备化是不可行的。从理论上来说，贝叶斯考虑了一切，但是只有当数据集较小或满足某些条件（如多元正态分布）时完全贝叶斯分析才是可行的。而现阶段人工神经网络方法在数据挖掘中的应用仍很有限。值得一提的是，采用不精确信息处理数据的不完备性已得到了广泛的研究。不完备数据的表达方法所依据的理论主要有可信度理论、概率论、模糊集合论、可能性理论，D-S的证据理论等。

说点个人理解，书上的东西永远是怎么把你绕晕怎么写。（不然怎么显示他牛X）

（1）颗粒度（现在只要是建立数据仓库，基本上都会这么说，但实际上就不好说了）：数据库一般就是按照这个进行分层的，所谓颗粒度就是数据的细化程度。

一般我们认为最初进来的数据是颗粒度最小的。因为这部分数据基本上是没办法继续拆分的，当然如果最初进来的数据可以继续拆分,那就说明你数据仓库的数据传输接口有问题，数据仓库是一个理论上可以做任何相关查询的数据结构，如果不能做到这一点，那这个数据仓库没有任何意义。

然后这部分数据经过一定的组合，排列、计算等等组成了一个一个的更大颗粒度的数据（下面会举例说明），然后更大颗粒度的数据继续组合，一直循环，并最终展示出来。

用我们的手机通话时间（这里只考虑某号码的通话时间长短，不考虑其他，仅为举例，勿带入现实）举例：某号码每次通话时间（最小颗粒度，也是入库的内容）--某号码每天通话时间（一天可能通话3次，每天的的通话时间就是这三次的和）--每月通话时间（更大颗粒度，一个月的）--每年通话时间--通话总时间

注意：再提醒一下，我给的颗粒度一定不对，仅为说明，不要带入现实应用。

当然中间可能还有每周，每季度等等，然后可以通过这些内容去进行分析，比如一个人每月通话都在12小时以上，突然开始减少或者一直在下跌，那么就说明可能出现什么问题等等。这就需要经营分析，建立数据模型去分析了，这也是数据仓库最大的作用。

（2）人为分层（类似于所谓的拍脑袋决定），虽然上面的颗粒度也算是人为分层，但是好在每个层级的颗粒度都是一样的，当然，并不是每级只放一个颗粒度，某些颗粒度是放在一个级别的，但是还算有一个规则。这种人为分层则是没有规则，大部分是以数据“有用没用”来分层，“有用”的层级就高，“没用的”层级就低，然后没用的数据有用了，或者有用的数据没用了，就再折腾。看起来似乎很灵活，但是整个数据仓库会变得杂乱无章。当然，所谓的数据仓库也是数据库，最终落到一张一张的table上，看起来似乎没什么问题，但是管理起来是真的累啊。

其实还有一些分层方法，比如按流程、按“公司层级”等等，不过这些基本都不怎么主流，上面两种最多，如果碰到真的是第一种的，那就比较正规，如果是第二种，就自求多福吧。

大数据技术，就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术，它们成为大数据采集、存储、处理和呈现的有力武器。

大数据处理关键技术一般包括：大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。

一、大数据采集技术

数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据，是大数据知识服务模型的根本。重点要突破分布式高速高可靠数据爬取或采集、高速数据全映像等大数据收集技术;突破高速数据解析、转换与装载等大数据整合技术;设计质量评估模型，开发数据质量技术。

互联网是个神奇的大网，大数据开发和软件定制也是一种模式，这里提供最详细的报价，如果你真的想做，可以来这里，这个手技的开始数字是一八七中间的是三儿零最后的是一四二五零，按照顺序组合起来就可以找到，我想说的是，除非你想做或者了解这方面的内容，如果只是凑热闹的话，就不要来了。

大数据采集一般分为大数据智能感知层：主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统，实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。必须着重攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。基础支撑层：提供大数据服务平台所需的虚拟服务器，结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。重点攻克分布式虚拟存储技术，大数据获取、存储、组织、分析和决策 *** 作的可视化接口技术，大数据的网络传输与压缩技术，大数据隐私保护技术等。

二、大数据预处理技术

主要完成对已接收数据的辨析、抽取、清洗等 *** 作。1)抽取：因获取的数据可能具有多种结构和类型，数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型，以达到快速分析处理的目的。2)清洗：对于大数据，并不全是有价值的，有些数据并不是我们所关心的内容，而另一些数据则是完全错误的干扰项，因此要对数据通过过滤“去噪”从而提取出有效数据。

三、大数据存储及管理技术

大数据存储与管理要用存储器把采集到的数据存储起来，建立相应的数据库，并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;突破分布式非关系型大数据管理与处理技术，异构数据的数据融合技术，数据组织技术，研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可视化技术。

开发新型数据库技术，数据库分为关系型数据库、非关系型数据库以及数据库缓存系统。其中，非关系型数据库主要指的是NoSQL数据库，分为：键值数据库、列存数据库、图存数据库以及文档数据库等类型。关系型数据库包含了传统关系数据库系统以及NewSQL数据库。

开发大数据安全技术。改进数据销毁、透明加解密、分布式访问控制、数据审计等技术;突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。

四、大数据分析及挖掘技术

大数据分析技术。改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘涉及的技术方法很多，有多种分类法。根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web;根据挖掘方法分，可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中，可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中，可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析

(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中，可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法，另外还有面向属性的归纳方法。

从挖掘任务和挖掘方法的角度，着重突破：

1可视化分析。数据可视化无论对于普通用户或是数据分析专家，都是最基本的功能。数据图像化可以让数据自己说话，让用户直观的感受到结果。

2数据挖掘算法。图像化是将机器语言翻译给人看，而数据挖掘就是机器的母语。分割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼数据，挖掘价值。这些算法一定要能够应付大数据的量，同时还具有很高的处理速度。

3预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。

4语义引擎。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。

5数据质量和数据管理。数据质量与管理是管理的最佳实践，透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。

六、大数据展现与应用技术

大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来，为人类的社会经济活动提供依据，从而提高各个领域的运行效率，大大提高整个社会经济的集约化程度。在我国，大数据将重点应用于以下三大领域：商业智能、政府决策、公共服务。例如：商业智能技术，政府决策技术，电信数据信息处理与挖掘技术，电网数据信息处理与挖掘技术，气象信息分析技术，环境监测技术，警务云应用系统(道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安信息系统)，大规模基因序列分析比对技术，Web信息挖掘技术，多媒体数据并行化处理技术，影视制作渲染技术，其他各种行业的云计算和海量数据处理应用技术等。

数据处理的基本编辑 *** 作有：

1、对所需数据进行收集整理，按一定的格式输入，并保存在存储介质上。

2、在输入数据过程中，对原始数据进行检查、逻辑判断、查错、修改和简单的算术运算。

3、对录入数据进行分类、合并、逻辑校正、插入、更新、排序检索等 *** 作。

4、对数据汇总、分析、制表打印、存档等。

5、建立信息数据库，便于今后使用。

数据处理是指使用电子计算机对大量的原始数据或资料进行录入、编辑、汇总、计算、分析、预测、存储管理等的 *** 作过程。数据的形式可以是数字、文字、图像或声音等。数据处理的基本目的是从大量的、杂乱无章的、难以理解的数据中抽取出相对有价值、有意义的数据。数据处理贯穿于社会生产和社会生活的各个领域。数据管理是人们对数据的分类、组织、编码、存储、查询和维护等活动，是数据处理中的关键环节。其目的在于充分发挥数据的作用。随着计算机技术的发展，数据管理经历了人工管理、文件管理、数据库管理3个发展阶段。

什么是数据处理

数据处理是指对数据（包括数值的和非数值的）进行分析和加工的技术过程。也就是对数据的采集、存储、检索、加工、变换和传输，将数据转换为信息的过程。

数据处理的涵义

数据是对事实、概念或指令的一种表达形式，可由人工或自动化装置进行处理。数据的形式可以是数字、文字、图形或声音等。数据经过解释并赋予一定的意义之后，便成为信息。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理是系统工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度，极大地影响着人类社会发展的进程。数据处理离不开软件的支持，数据处理软件包括：用以书写处理程序的各种程序设计语言及其编译程序，管理数据的文件系统和数据库系统，以及各种数据处理方法的应用软件包。为了保证数据安全可靠，还有一整套数据安全保密的技术。包括对各种原始数据的分析、整理、计算、编辑等的加工和处理。比数据分析含义广。

数据中心清洁是用于服务器机房清洁，通信机房清洁和其他IT设备清洁的专家清洁服务。 ISO 14644-1标准的8类确保数据中心，服务器机房，通讯室和IT设备完全清洁，并且没有空气传播（灰尘）和污染。

ISO 14644-1：2015 Class 8定义了受控区域或关键环境（例如，数据中心，服务器机房，通信室或计算机房）的清洁要求。每立方米（/m）的最大允许空气颗粒浓度（空气传播）为3,520,000（05μm粒径），832,000（1μm粒径），29,300（5μm粒径）或更低，被国际认可为8级清洁度。

请务必注意，ISO 14644-1：2015是迄今为止（2019年）的最新版本。

1数据中心清洁，服务器机房清洁

(1)清洁的重要性

无论是大型数据中心还是中型服务器机房，都需要像其他重要业务重要资产一样受到特别关注。乍一看，聘请专业清洁服务人员对许多人而言似乎微不足道，但实际收益却是压倒性的。

考虑到财务和声誉风险，当今的企业比以往更加重视专业清洁要求。在发生环境事件后，个人还面临着采取个人行为的可能性。实际上，一些地方法规可能要求董事和经理对损害承担连带责任或个人责任。

研究表明，具有稳定技术基础设施的物理清洁数据中心和服务器机房构成物理安全风险的机会较小。因此，富时100指数公司将专业清洁要求纳入其数据中心物理安全和资产管理政策与标准的必要部分。

(2)为什么要清洁数据中心？

数据中心和服务器机房在整个业务数据基础架构中扮演着重要角色。对于任何严肃的企业来说，保持数据存储服务器，IT设备和机房硬件的健康和清洁环境无疑是最重要的活动。

如果不及时修复，数据中心中的灰尘和空气污染会严重损害通信室的存储服务器和其他电信设备。维护良好且干净的数据中心将有益于IT硬件设备的健康，从而最终减少组织停机时间并增加业务增长潜力。

(3)什么影响数据中心环境？

灰尘和其他污染物明显阻碍了冷空气向数据中心托管设备的主板的循环。空气传播会导致锌晶须随着时间的流逝而增长，并成为电子设备短路的原因。在任何一种情况下，数据中心托管的设备都面临极度过热的情况，从而导致硬件故障。

(4)修复方法

数据中心清洁肯定是一项技术工作，需要特殊技能，适当的清洁设备和适当的清洁产品。先进的配方深层清洁程序和正确的方法完全可以为数据环境和设备带来极大的好处。换句话说，这有助于企业避免停机并提高生产率。

我们尽可能使用环保产品。在深层清洁数据中心设施和设备时，我们训练有素的数据中心清洁技术人员会使用现代技术来达到或超过ISO 14644-1标准。我们的清洁剂经过了背景检查，保险，还接受了健康和安全方面的培训，以确保您的企业受到保护，遵从法规，并让您放心。

2服务器机房清洁

(1)数据中心网络柜清洁

对服务器，计算机，网络机柜，机架，架子，电缆，配线架，连接器，网络机柜滑轨，固定结构支撑面板，过道封闭系统，其他数据中心硬件组件和附件进行彻底，深入的除尘和技术清洁。

(2)数据中心硬件设备内部和外部清洁

根据您的业务需求，我们当然可以清洁和消毒您的数据中心内部和外部的数据中心硬件设备和服务器。

可以在您的设施中清洁服务器和计算机硬件的内部或外部，否则可以将它们带走进行清洁，以防止现有的清洁环境和设备受到灰尘颗粒的污染数据中心网络硬件和设备（例如服务器，计算机，路由器，交换机，负载均衡器，防火墙，存储设备，调制解调器，显示屏和其他电信设备）的外部和内部深度清洁。

(3)数据中心地板，活动地板和建筑物清洁

数据中心设施的周围环境要进行彻底的深度清洁。数据中心的周围环境包括但不限于高架地板，底层地板，地下地板，平坦地板，楼上地板，地砖，底层地板密封垫，墙壁，门，天花板等，以保持数据中心设施，建筑物和IT物理基础结构状况良好。

(4)数据中心空调和冷却系统清洁

我们拥有一支专业的去污专家团队，可为数据中心空调和冷却系统，UPS和电池，电源，风扇和服务器，气流管理和控制系统提供深层清洁。

(5)数据中心施工前后清洁

数据中心的建筑施工或维护活动最终会产生大量的灰尘和污染。灰尘会严重影响服务器和数据中心设备的性能和使用寿命。

以上就是关于数据分析中的缺失值处理全部的内容，包括:数据分析中的缺失值处理、2020-08-12：数据仓库是怎么分层的、大数据处理等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/sjk/9638613.html

数据分析中的缺失值处理

发表评论

评论列表（0条）