什么是数据挖掘_sql

数据挖掘就是从大量的数据中，提取隐藏在其中的，事先不知道的、但潜在有用的信息的过程。数据挖掘的目标是建立一个决策模型，根据过去的行动数据来预测未来的行为。比如分析一家公司的不同用户对公司产品的购买情况，进而分析出哪一类客户会对公司的产品有兴趣。在讲究实时、竞争激烈的网络时代，若能事先破解消费者的行为模式，将是公司获利的关键因素之一。数据挖掘是一门交叉学科，它涉及了数据库，人工智能，统计学，可视化等不同的学科和领域。

数据挖掘是数据库中知识发现不可缺少的一部分，而KDD是将未加工的数据转换为有用信息的整个过程，该过程包括一系列转换步骤，从数据的预处理到数据挖掘结果的后处理。

数据挖掘（Data Mining）是指通过大量数据集进行分类的自动化过程，以通过数据分析来识别趋势和模式，建立关系来解决业务问题。换句话说，数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

原则上讲，数据挖掘可以应用于任何类型的信息存储库及瞬态数据（如数据流），如数据库、数据仓库、数据集市、事务数据库、空间数据库（如地图等）、工程设计数据（如建筑设计等）、多媒体数据（文本、图像、视频、音频）、网络、数据流、时间序列数据库等。也正因如此，数据挖掘存在以下特点：

（1）数据集大且不完整

数据挖掘所需要的数据集是很大的，只有数据集越大，得到的规律才能越贴近于正确的实际的规律，结果也才越准确。除此以外，数据往往都是不完整的。

（2）不准确性

数据挖掘存在不准确性，主要是由噪声数据造成的。比如在商业中用户可能会提供假数据；在工厂环境中，正常的数据往往会收到电磁或者是辐射干扰，而出现超出正常值的情况。这些不正常的绝对不可能出现的数据，就叫做噪声，它们会导致数据挖掘存在不准确性。

（3）模糊的和随机的

数据挖掘是模糊的和随机的。这里的模糊可以和不准确性相关联。由于数据不准确导致只能在大体上对数据进行一个整体的观察，或者由于涉及到隐私信息无法获知到具体的一些内容，这个时候如果想要做相关的分析 *** 作，就只能在大体上做一些分析，无法精确进行判断。

而数据的随机性有两个解释，一个是获取的数据随机；我们无法得知用户填写的到底是什么内容。第二个是分析结果随机。数据交给机器进行判断和学习，那么一切的 *** 作都属于是灰箱 *** 作。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/10055411.html

什么是数据挖掘

发表评论

评论列表（0条）