数据预处理的方法有哪些_sql

数据预处理的方法有：数据清理、数据集成、数据规约和数据变换。

1、数据清洗

数据清洗是通过填补缺失值，平滑或删除离群点，纠正数据的不一致来达到清洗的目的。简单来说，就是把数据里面哪些缺胳膊腿的数据、有问题的数据给处理掉。总的来讲，数据清洗是一项繁重的任务，需要根据数据的准确性、完整性、一致性、时效性、可信性和解释性来考察数据，从而得到标准的、干净的、连续的数据。

（1）缺失值处理

实际获取信息和数据的过程中，会存在各类的原因导致数据丢失和空缺。针对这些缺失值，会基于变量的分布特性和变量的重要性采用不同的方法。若变量的缺失率较高（大于80%），覆盖率较低，且重要性较低，可以直接将变量删除，这种方法被称为删除变量。

若缺失率较低（小于95%）且重要性较低，则根据数据分布的情况用基本统计量填充（最大值、最小值、均值、中位数、众数）进行填充，这种方法被称为缺失值填充。对于缺失的数据，一般根据缺失率来决定“删”还是“补”。

（2）离群点处理

离群点（异常值）是数据分布的常态，处于特定分布区域或范围之外的数据通常被定义为异常或噪声。我们常用的方法是删除离群点。

（3）不一致数据处理

实际数据生产过程中，由于一些人为因素或者其他原因，记录的数据可能存在不一致的情况，需要对这些不一致数据在分析前进行清理。例如，数据输入时的错误可通过和原始记录对比进行更正，知识工程工具也可以用来检测违反规则的数据。

2、数据集成

随着大数据的出现，我们的数据源越来越多，数据分析任务多半涉及将多个数据源数据进行合并。数据集成是指将多个数据源中的数据结合、进行一致存放的数据存储，这些源可能包括多个数据库或数据文件。在数据集成的过程中，会遇到一些问题，比如表述不一致，数据冗余等，针对不同的问题，下面简单介绍一下该如何处理。

（1）实体识别问题

在匹配来自多个不同信息源的现实世界实体时，如果两个不同数据库中的不同字段名指向同一实体，数据分析者或计算机需要把两个字段名改为一致，避免模式集成时产生的错误。

（2）冗余问题

冗余是在数据集成中常见的一个问题，如果一个属性能由另一个或另一组属性“导出”，则此属性可能是冗余的。

（3）数据值的冲突和处理

不同数据源，在统一合并时，需要保持规范化，如果遇到有重复的，要去重。

数据库与信息系统 Database and Information Systems

包括以下研究内容：

(1)数据库(Database)：数据模型，数据查询、集成，各种数据库系统的设计、实现等。

(2)数据挖掘(Data Mining)：从数据中提取模式的处理过程。它在很多领域有广泛的应用，例如市场营销、监测、入侵检测和科学发现。数据挖掘和机器学习很相关，但是数据挖掘更关注实际应用。

(3)信息检索(Information Retrieval)：研究如何提取各种媒体(文本、音频、视频等，目前的研究以文本居多)中的信息，同时还搜索与之关联的数据库和万维网。

(4)自然语言处理(Natural language processing)：构建一种可以分析、理解和生成自然语言的计算机系统。研究课题包含自动摘要(automatic summarization)，语篇分析(discourse analysis)，机器翻译(machine translation)，命名实体识别(named entity recognition)，自然语言生成(natural language generation)和语音识别(speech recognition)等。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9903762.html

数据预处理的方法有哪些

发表评论

评论列表（0条）