网站数据挖掘--基础部分（未完）_CMS教程

标签（空格分隔）：数据挖掘数据分析数据采集

完整的网站数据工作机制包括 数据采集、数据处理和数据报告 三个部分。

数据采集分两层：

1、第一层是通过特定页面或Activity标记实现在线数据采集，在线数据是网站数据的 核心组成 ；

2、第二层是通过外部系统或手动形式导入的外部数据源， 外部数据源是在线数据的拓展 。

在线数据采集根据平台可分为Web站、WAP站和APP站。Web站及以HTML 5开发的WAP站都支持JS脚本采集；较早开发的不支持JS的WAP站则采用NoScript,即一个像素的硬实现数据跟踪；SDK是针对APP进行数据采集的特定方法和框架。这三种方法可以实现目前所有线上数据采集的需求。

这种客户端-服务器的数据采集方法适用于大多数的数据采集需求，但在这种采集方法的前期页面标记需要在用户客户端触发才能实现，如果数据不是通过用户客户端触发，在网站外部则无法收集（比如说支付宝的支付页面）。

由于数据经历了从网站服务器->用户客户端->采集服务器三个节点，从网站服务器到用户客户端的过程可能会有数据丢失的情况，尤其在订单结算等核心信息中，这种客户端-服务器的采集方法可靠性较小。

（注意：不管采用何种采集方法，任何网站分析系统的数据都不可能与企业内部数据系统中的数据完全一致，对网站分析系统中数据准确性的要求是数据误差与企业数据系统误差率较小（通常在5%以下）且数据误差率稳定。）

针对上述情况，某些网站分析系统如Webtrekk支持Server to Server（S-S，网站服务器对采集服务器）的方法进行在线数据采集，避免数据在客户端的中转流失。

所有在线数据采集都会受到采集规则的制约，比如排除特定IP地址的流量、只采集某个域名下的数据等。数据采集规则是数据采集的重要控制节点，如果出现某些排除、隐藏或直接忽视数据的采集规则，将可能导致数据丢失。

（不明白为什么SAAS网站分析系统都不能处理历史数据，这意味着如果在数据采集阶段出现数据丢失将会产生无法挽回的后果，建议原始初级采集阶段不设定任何排除规则；如果数据中可能含有大量的内部测试数据，测试环境与生产环境应分账号采集）

外部数据接入与在线数据采集是异步进行的。外部接入数据进入网站分析系统后，根据数据处理层的处理规则，在经过数据抽取、加载、转换之后，与在线采集数据整合形成完整的数据源。

外部接入数据的工作流程如下，原始的外部数据（文档、服务器日志、在线其他系统数据、离线数据）通过自动或人工整理形成符合特定规范的数据文件或带制表符分隔的数据文档，然后根据接入机制的不同完成数据的整合工作。

原始的外部数据（文档、服务器日志、在线其他系统数据、离线数据）通过自动或人工整理形成符合特定规范的数据文件或带制表符分隔的数据文档，然后根据接入机制的不同完成数据的整合工作。

（考虑到IT人力、物力和时间投入等因素考虑，通过FTP导入数据的方式更易于实现。前期可以考虑使用FTP自动上传的机制，待数据需求稳定切业务实现思路无误后再通过技术手段开发API。）

数据挖掘会用到SQL结构化查询语言，其它任何编程语言仅是借助SQL结构化查询语言完成数据库的 *** 作、查询和维护。

结构化查询语言(Structured Query Language)简称SQL，是一种特殊目的的编程语言，是一种数据库查询和程序设计语言，用于存取数据以及查询、更新和管理关系数据库系统。

结构化查询语言是高级的非过程化编程语言，允许用户在高层数据结构上工作。它不要求用户指定对数据的存放方法，也不需要用户了解具体的数据存放方式，所以具有完全不同底层结构的不同数据库系统, 可以使用相同的结构化查询语言作为数据输入与管理的接口。结构化查询语言语句可以嵌套，这使它具有极大的灵活性和强大的功能。

数据挖掘（英语：Data mining），又译为资料探勘、数据采矿。它是数据库知识发现（英语：Knowledge-Discovery in Databases，简称：KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。

编程语言（programming language），是用来定义计算机程序的形式语言。它是一种被标准化的交流技巧，用来向计算机发出指令。一种计算机语言让程序员能够准确地定义计算机所需要使用的数据，并精确地定义在不同情况下所应当采取的行动。

编程语言俗称“计算机语言”，种类非常的多，总的来说可以分成机器语言、汇编语言、高级语言三大类。电脑每做的一次动作，一个步骤，都是按照已经用计算机语言编好的程序来执行的，程序是计算机要执行的指令的集合，而程序全部都是用我们所掌握的语言来编写的。所以人们要控制计算机一定要通过计算机语言向计算机发出命令。目前通用的编程语言有两种形式：汇编语言和高级语言。

数据挖掘，又称为资料探勘、数据采矿。它是数据库知识发现(英语：Knowledge-DiscoveryinDatabases，简称：KDD)中的一个步骤，是一个挖掘和分析大量数据并从中提取信息的过程。其中一些应用包括市场细分-如识别客户从特定品牌购买特定产品的特征，欺诈检测-识别可能导致在线欺诈的交易模式等。在本文中，回龙观电脑培训整理了进行数据挖掘的8个最佳开源工具。

1、Weka

WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。

2、RapidMiner

RapidMiner是世界领先的数据挖掘解决方案，在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛，包括各种数据艺术，能简化数据挖掘过程的设计和评价。

3、Orange

Orange是一个基于组件的数据挖掘和机器学习软件套装，它的功能即友好，又很强大，快速而又多功能的可视化编程前端，以便浏览数据分析和可视化，基绑定了Python以进行脚本开发。它包含了完整的一系列的组件以进行数据预处理，并提供了数据帐目，过渡，建模，模式评估和勘探的功能。其由C++和Python开发，它的图形库是由跨平台的Qt框架开发。

4、Knime

KNIME(KonstanzInformationMiner)是一个用户友好，智能的，并有丰演的开源的数据集成，数据处理，数据分析和数据勘探平台。

5、jHepWork

jHepWork是一套功能完整的面向对象科学数据分析框架。Jython宏是用来展示一维和二维直方图的数据。该程序包括许多工具，可以用来和二维三维的科学图形进行互动。

6、ApacheMahout

ApacheMahout是ApacheSoftwareFoundation(ASF)开发的一个全新的开源项目，其主要目标是创建一些可伸缩的机器学习算法，供开发人员在Apache在许可下免费使用。该项目已经发展到了它的最二个年头，目前只有一个公共发行版。Mahout包含许多实现，包括集群、分类、CP和进化程序。此外，通过使用ApacheHadoop库，Mahout可以有效地扩展到云中。

7、ELKI

ELKI(EnvironmentforDevelopingKDD-ApplicationsSupportedbyIndex-Structures)主要用来聚类和找离群点。ELKI是类似于weka的数据挖掘平台，用java编写，有GUI图形界面。可以用来寻找离群点。

随着GIS技术在各个行业的应用以及数据挖掘空间数据采集技术数据库技术的迅速发展对从空间数据库发现隐含知识的需求日益增长从而出现了用于在空间数据库中进行知识发现的技术——空间数据挖掘(Spatial Data Mining 本文简称为SDM) 空间数据挖掘是从空间数据库中提取隐含的用户感兴趣的空间和非空间模式和普遍特征的过程

本文分析了空间数据库知识发现面临的困难研究了扩展传统数据挖掘方法如分类关联规则聚类等到空间数据库的方法并对空间数据库系统实现技术及空间数据挖掘系统开发模式等进行了比较分析

空间数据库知识发现面临的困难

从空间数据库发现知识的传统途径是通过专家系统数据挖掘空间分析等技术来实现的但是在空间数据库隐含知识的发现方面只单独依某一种技术往往存在着这样或那样的缺陷对于专家系统来讲专家系统不具备自动学习的能力 GIS中的专家系统也达不到真正的智能系统的要求仅能利用已有的知识进行推导对于数据挖掘来讲空间数据库与普通数据库的在数据存储机制的不同和空间数据的相互依赖性等特点决定了在空间数据库无法直接采用传统的数据挖掘方法对于空间分析来讲虽然空间分析中常用的统计方法可以很好地处理数字型数据但是它存在的问题很多如统计方法通常假设空间分布的数据间是统计上独立的而现实中空间对象间一般是相互关联的;其次统计模型一般只有具有相当丰富领域知识和统计方面经验的统计专家才能用;另外统计方法对大规模数据库的计算代价非常高所以在处理海量数据方面能力较低

从上面的分析可以看出由于空间数据具有诸多特点因此在空间数据库进行知识发现需要克服使用单一技术的缺陷即需要融合多种不同技术所以研究人员提出了空间数据挖掘技术来解决从空间数据库知识发现隐含知识的难题

空间数据挖掘是多学科和多种技术交综合的新领域它综合了机器学习空间数据库系统专家系统可移动计算统计遥感基于知识的系统可视化等领域的有关技术

空间数据挖掘利用空间数据结构空间推理计算几何学等技术把传统的数据挖掘技术扩充到空间数据库并提出很多新的有效的空间数据挖掘方法与传统空间分析方法相比它在实现效率与数据库系统的结合与用户的交互发现新类型的知识等方面的能力大大增强空间数据挖掘能与GIS的结合使GIS系统具有自动学习的功能能自动获取知识从而成为真正的智能空间信息系统

扩展传统数据挖掘方法到空间数据库

空间数据挖掘技术按功能划分可分为三类描述解释预测描述性的模型将空间现象的分布特征化如空间聚类解释性的模型用于处理空间关系如处理一个空间对象和影响其空间分布的因素之间的关系预测型的模型用来根据给定的一些属性预测某些属性预测型的模型包括分类回归等以下介绍将几个典型的数据挖掘技术聚类分类关联规则扩展到空间数据库的方法

聚类分析方法按一定的距离或相似性测度将数据分成一系列相互区分的组而空间数据聚类是按照某种距离度量准则在某个大型多维数据集中标识出聚类或稠密分布的区域从而发现数据集的整个空间分布模式经典统计学中的聚类分析方法对海量数据效率很低而数据挖掘中的聚类方法可以大大提高聚类效率文献[ ]中提出两个基于CLARANS聚类算法空间数据挖掘算法SD和ND 可以分别用来发现空间聚类中的非空间特征和具有相同非空间特征的空间聚类 SD算法首先用CLARANS算法进行空间聚类然后用面向属性归纳法寻找每个聚类中对象的高层非空间描述;ND算法则反之文献[ ]中提出一种将传统分类算法ID 决策树算法扩展到空间数据库的方法该算法给出了计算邻近对象非空间属性的聚合值的方法并且通过对空间谓词进行相关性分析和采用一种逐渐求精的策略使得计算时间复杂度大大降低 Koperski等[ ]将大型事务数据库的关联规则概念扩展到空间数据库用以找出空间对象的关联规则此方法采用一种逐渐求精的方法计算空间谓词首先在一个较大的数据集上用MBR最小边界矩形结构技术对粗略的空间谓词进行近似空间运算然后在裁剪过的数据集上用代价较高的算法进一步改进挖掘的质量

空间数据库实现技术

空间数据挖掘系统中空间数据库负责空间数据和属性数据的管理它的实现效率对整个挖掘系统有着举足轻重的影响所以下面详细介绍空间数据库的实现技术

根据空间数据库中空间数据和属性数据的管理方式空间数据库有两种实现模式集成模式和混合模式后者将非空间数据存储在关系数据库中将空间数据存放在文件系统中这种采用混合模式的空间数据库中空间数据无法获得数据库系统的有效管理并且空间数据采用各个厂商定义的专用格式通用性差而集成模式是将空间数据和属性数据全部存储在数据库中因此现在的GIS软件都在朝集成结构的空间数据库方向发展下面对集成结构的空间数据库技术中的两个主流技术基于空间数据引擎技术的空间数据库和以Oracle Spatial为代表的通用空间数据库进行比较分析

空间数据引擎是一种处于应用程序和数据库管理系统之间的中间件技术使用不同GIS厂商的客户可以通过空间数据引擎将自身的数据交给大型关系型DBMS统一管理;同样客户也可以通过空间数据引擎从关系型DBMS中获取其他类型GIS的数据并转化成客户可使用的方式它们大多是在Oracle i Spatial(较成熟的空间数据库版本于年月推出)推出之前由GIS软件开发商提供的将空间数据存入通用数据库的解决方案且该方案价格昂贵

Oracle Spatial提供一个在数据库管理系统中管理空间数据的完全开放体系结构 Oracle Spatial提供的功能与数据库服务器完全集成用户通过SQL定义并 *** 作空间数据且保留了Oracle的一些特性如灵活的n 层体系结构对象定义健壮的数据管理机制 Java存储过程它们确保了数据的完整性可恢复能力和安全性而这些特性在混合模式结构中几乎不可能获得在Oracle Spatial中用户可将空间数据当作数据库的特征使用可支持空间数据库的复制分布式空间数据库以及高速的批量装载而空间中间件则不能除了允许使用所有数据库特性以外 Spatial Cart ridge还提供用户使用行列来快速访问数据使用简单的SQL语句应用者就能直接选取多个记录 Spatial Cart ridge数据模型也给数据库管理员提供了极大的灵活性 DBA可使用常见的管理和调整数据库的技术

空间数据挖掘系统的开发

通用SDM系统

在空间数据挖掘系统的开发方面国际上最著名的有代表性的通用SDM系统有 GeoMiner Descartes和ArcView GIS的S PLUS接口 GeoMiner是加拿大Simon Fraser大学开发的著名的数据挖掘软件DBMiner的空间数据挖掘的扩展模块空间数据挖掘原型系统GeoMiner包含有三大模块空间数据立方体构建模块空间联机分析处理(OLAP)模块和空间数据采掘模块能够进行交互式地采掘并显示采掘结果空间数据采掘模块能采掘种类型的规则特征规则判别规则和关联规则 GeoMiner采用SAND体系结构采用的空间数据采掘语言是GMQL 其空间数据库服务器包括MapInfo ESRI/OracleSDE Informix Illustra以及其它空间数据库引擎

Descartes可支持可视化的分析空间数据它与开发此软件的公司所开发的数据挖掘工具Kepler结合使用 Kepler完成数据挖掘任务且拥有自己的表现数据挖掘结果的非图形界面 Kepler和Descarte动态链接把传统DM与自动作图可视化和图形表现 *** 作结合起来实现C 决策树算法聚类关联规则的挖掘

ArcView GIS的S PLUS接口是著名的ESRI公司开发的它提供工具分析空间数据中指定类

除了以上空间数据挖掘系统外还有GwiM等系统

从以上SDM系统可以看出它们的共同优点是把传统DM与地图可视化结合起来提供聚类分类等多种挖掘模式但它们在空间数据的 *** 作上实现方式不尽相同 Descartes是专门的空间数据可视化工具它只有与DM工具Kepler结合在一起才能完成SDM任务而GeoMiner是在MapInfo平台上二次开发而成系统庞大造成较大的资源浪费 S PLUS的局限在于它采用一种解释性语言(Script) 其功能的实现比用C和C++直接实现要慢得多所以只适合于非常小的数据库应用基于现存空间数据挖掘系统的结构所存在的缺陷我们提出空间数据挖掘系统一种新的实现方案

lishixinzhi/Article/program/SQL/201311/16146

Oracle 发布了 PL/SQL 和 Java 应用编程接口 (API) 后市场上才会推出可利用这一新发布的 API 的点击工具或构建器这一般是最好的做法利用这一实践开发人员可将新功能即刻融入其应用程序中以使其企业从中获益

然而开发可利用新发布 API 的专门工具需要投入大量精力因此理想情况下从 API 发布直至推出利用该 API 的直观最终用户工具至少需要数个月而实际上这一滞后时间通常为一年或两年同时利用 API 可能需要企业使用自己的工具或更为常见的是利用即席解决方案例如在报表生成器和电子表格中嵌入对 API 的调用

一种常用方法是将 API 包装在数个脚本中然后使用自定义按钮和菜单从电子表格访问这些脚本但是这一方法的主要缺点在于如今的电子表格是将单个单元格中的文本和数字作为值来进行处理的因此它通常不是处理新功能的合适工具

本文将介绍如何快速将分析和其他 API 整合至一个最终用户可从其中轻松访问新代码的电子表格平台作为指导性示例其中还将阐释了如何将Oracle 数据挖掘(PL/SQL) API 重新打包为 Java API 以及如何从电子表格调用的 J Cells 访问该 API J Cells 完全以 Oracle JDeveloper 编写它不仅可以将文本和数字作为单元格的值而且还可将 Java 对象作为值进行处理并可从其单元格直接访问任何 Java API 以即刻进行部署

电子表格平台

我使用的是电子表格界面只是其中允许用户在单元格中创建任何 Java 对象以及使用基元 Java 类型每个单元格都可用作另一个单元格的变量用户可以选择在单元格中直接编写 Java 代码或使用其他格式将电子表格界面和对象(而不仅是常规电子表格中的数字和文本)使用相结合是自动进行的 J Cells 为每个适合单元格的对象计算指示值这一指示值给予用户有关显示对象的充足线索此外还会实施一个完整的值系统可根据需要(例如当用户双击给定单元格时)以各种其他格式显示对象即使在电子表格中因为公式可能定义比较复杂所以系统还需识别要创建的对象是否具有相关的向导向导通常是一个特定于某个对象类型的图形化代码生成器稍后本文示例将说明如何在 J Cells 中使用向导

图显示了本文示例的电子表格界面

图 J Cells 的电子表格界面

数据挖掘 API

Oracle 支持两种兼容的 API 以访问数据库中的数据挖掘功能第一种是 PL/SQL API 其中包括 DBMS_DATA_MINING 程序包另一种也是 Java API 称为 Oracle 数据挖掘 Java API 因为 J Cells 目前最适合访问 Java API 所以需要以可直接从 Java 对其进行访问的方式打包 PL/SQL API 两个主要的 Oracle 数据挖掘概念是设置和模型设置概念基本围绕带有两列(setting_name 和 setting_value)的设置表构建;其中 setting_name 是挖掘算法使用的属性名而 setting_value 是与该属性相对应的值

DBMS_DATA_MINING 程序包包含若干过程包括 CREATE_MODEL 和 APPLY CREATE_MODEL 过程根据设置表(作为过程的参数之一提供)中的值为给定挖掘函数和数据集创建挖掘模型该过程简单且易于使用实际上由用户来为要创建的模型要使用的挖掘函数包含要使用的数据的表要建模的列以及设置表提供名称这一方法的优点在于所有不同算法都可以类似的方法调用每种算法的微调都整合至设置表中但在很多情况下各种设置系数可由算法本身自动决定设置表中条目的复杂性根据用户的专业技术背景和算法而有所不同许多专业用户可能希望手动设置所有可能的系数而我们中的多数人更可能乐意系统自动给出适用设置 Oracle 提供了一个要用作设置键的常量列表以及命名为常量或数字间隔的值

表 algo_name(算法名)设置键的值

Oracle 的算法名 (algo_name) 键的常量值如上所示对于其中的每一个值使用了可能键和值的不同集等以下(图 )显示了向导函数是如何将这些键映射到树结构并允许用户通过 *** 纵该设置树定义设置表的

作为 Oracle 数据库中创建的挖掘模型 DBMS_DATA_MINING APPLY 过程用于将该模型应用到新数据集而且这是一个易于使用的过程要求只输入挖掘模型名包含新数据集的表名用于识别新数据集中行的列以及结果数据集名 Java 类 OracleMiningModel (below) 在调用预测评分或 apply 方法时都会利用该 APPLY 过程此外 DBMS_DATA_MINING 程序包包含若干根据类型将各个模型详细信息作为结果集或以 XML 格式返回的函数这些细节函数也可通过使用 OracleMiningModel 类的实例(代表数据库中的不同模型)进行访问

此处可通过创建一个称为 OracleModelSettings 的 Java 类以 Java 打包 (PL/SQL) 设置概念该类具有灵活的构造函数和各种签名包括

public OracleModelSettings ( String modelSettingsName

Connection databaseConnection

String[] keyToValueStringMap)

throws SQLException

keyToValueStringMap 只是表单 > 的字符串数组该数组详细说明了设置表的行以及负责在数据库中维护设置表的类

类似地此处也可通过创建一个称为 OracleMiningModel 的 Java 类以 Java 打包模型概念该类具有构造函数和各种签名包括

public OracleMiningModel ( String modelName

OracleModelSettings oms

String[] keyToValueStringMap)

boolean recreate)

throws SQLException

此处使用 keyToValueMappings 数组来确定在 Oracle 数据库中创建数据挖掘模型所需的算法以及其他命名属性该类的用途就是创建和维护数据挖掘模型此外 OracleMiningModel 类还定义了用于检索以及将该模型应用到新数据集的方法这些方法包括以下各项此处只显示了一小部分

public OracleResultSet infoAprioriAssociationRules(int topn)

public OracleResultSet infoAprioriFrequentItemsets(int topn)

public OracleResultSet infoAdaptiveBayesNeork()

public OracleResultSet infoAIMinimumDescLength()

public OracleResultSet infoKMeans()

public OracleResultSet infoNaiveBayes()

public OracleResultSet infoNonnegativeMatrixFactorization()

public OracleResultSet infoOCluster()

public OracleResultSet infoSupportVectorMachines()

public XMLType infoDecisionTree()

public Object getPrediction(String[] signature double[] doubleVal)

public HashMap score(String[] signature double[] doubleVal)

public OracleResultSet apply( String dataTable

String caseID

String resultTable

String schema

boolean overwrite)

除了具有上述签名外所有的方法可能都会引发 SQL 意外一旦可以从两个简单类来管理数据挖掘功能后就可调用该电子表格平台来访问任何可用的数据挖掘算法以在 Oracle 数据库中建模数据集

数据挖掘示例

因此来看一个在该系统中编写的小数据挖掘模型该模型可通过访问 Oracle 数据库创建并运行 ODM (Oracle Data Mining) 回归模型该回归模型的用途是根据输入(例如血压高度和体重)预测心率使用 J Cells 可直接访问 Java API 以实例化对象并在对象上调用方法首先连接至 Oracle 数据库 DataSource 对象可通过将以下公式

() = ~ OracleDataSource( agust agust dbVaio vaioFS );

输入到电子表格的单元格 b 中进行实例化 Tilde 符号 (~) 表示缩写符号允许 J Cells 将(右侧)语句转换为构造函数t new cell OracleDataSource( agust agust dbVaio vaioFS ); 使系统能够以用户 agust 的身份访问服务器 vaioFS 上的数据库 dbVaio

现在可通过在 DataSource 对象上调用正确的方法(例如在单元格 b 和 b 中分别输入以下公式) 获得数据库连接以及检查数据库中的源数据

() = b getConnection();

() = b query( select from pulse_clinical );

第一个语句将向单元格 b 中返回一个 java sql Connection 对象第二个语句将向单元格 b 中返回一个 java sql ResultSet 对象只需通过双击单元格 (b ) 就可检查结果集该 *** 作会将结果表显示在表格框架中以便查看

迄今为止我只在该电子表格中创建了几个简单的数据对象现在可以调用数据挖掘 API 来定义一个设置对象然后创建一个简单的数据挖掘模型首先通过在单元格 b 中输入以下语句来创建一个设置对象

() = new cell odm OracleModelSettings( xyz_settings b

new String[]{

algo_name > algo_support_vector_machines

svms_kernel_function > svms_linear } );

立刻我发现该公式中的问题是最终用户友好的因此注册一个带有 J Cells 的向导在提示用户后自动生成该公式可能是个不错的办法一般电子表格在用户创建复杂公式时都会给予帮助因此用户可以期望在实例化对象时获得指导

部署的向导如图所示

图典型的向导界面

同样数据挖掘模型通过使用向导或输入公式来创建在这两种情况中结果模型都是在直接指定 API 调用的单元格 b 中进行实例化

()= new cell odm OracleMiningModel( xyz_model b

new String[]{

data_table_name > pulse_clinical

mining_function > regression

target_column_name > pulse

case_id_column_name > subject }

false );

使用该公式结果实例化数据挖掘模型将在 Oracle 数据库中生成标准的 Oracle 数据挖掘模型该模型可通过双击单元格 b 进行查看模型的完整值如图所示

图查看单元格 b 中的模型

使用上述的 OracleMiningModel 方法可将该模型应用到 Oracle 数据库中的数据集作为一个简单的交互式评分模型(一般适用于电子表格应用程序) 用户可能希望输入血压高度和体重值让数据库使用刚才定义的模型预测心率这个在模型对象上定义的 Java API 方法 getPrediction 非常适合这一用途在单元格 e e e 以及 e 中(以单元格 b 中签名数组指定的顺序)键入输入值后通过输入以下公式可进行评分

() = b getPrediction(b new double[]{e e e e });

同样该公式将直接访问 Java API 以获取并在单元格 e 中显示评分结果如图所示

图将模型应用到输入值

电子表格优点

电子表格在最终用户之间的流行多少有些令人费解一方面当今最常用的电子表格系统长期以来令许多开发人员气馁他们习惯于更为灵活强大的系统而另一方面对于非开发人员而言使用电子表格系统具有以下一些明显优点无须构建图形化用户界面单独构建和测试每个公式(代码)以及隐藏公式看到的是更为简单的计算结果这些优点只存在于当今流行的电子表格中使用公式可将数字或文本返回到单元格而许多系统主要受限于此此处演示了如何移除这一限制并创建更为强大的工具然后用它来直接访问 Oracle 的数据挖掘模型功能以及其他 API

结论

lishixinzhi/Article/program/Oracle/201311/17437

大数据分析是一个含义广泛的术语，是指数据集，如此庞大而复杂的，他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源：传感器，气候信息，公开的信息，如杂志，报纸，文章。大数据分析产生的其他例子包括购买交易记录，网络日志，病历，军事监控，视频和图像档案，及大型电子商务。

大数据分析，他们对企业的影响有一个兴趣高涨。大数据分析是研究大量的数据的过程中寻找模式，相关性和其他有用的信息，可以帮助企业更好地适应变化，并做出更明智的决策。

一、Hadoop

Hadoop是一个开源框架，它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展，每一个台机都可以提供本地计算和存储。

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的，即使计算元素和存储会失败，它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。Hadoop是高效的，它采用并行的方式工作，通过并行处理加快处理速度。Hadoop 还是可伸缩的，能够处理 PB 级数据。此外，Hadoop 依赖于社区服务器，因此它的成本比较低，任何人都可以使用。

Hadoop是轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点：

1、高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

2、高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。

3、高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。

4、高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。

Hadoop带有用 Java 语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。

二、HPCC

HPCC，High Performance Computing and Communications(高性能计算与通信)的缩写。1993年，由美国科学、工程、技术联邦协调理事会向国会提交了"重大挑战项目：高性能计算与通信"的报告，也就是被称为HPCC计划的报告，即美国总统科学战略项目，其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国实施信息高速公路而上实施的计划，该计划的实施将耗资百亿美元，其主要目标要达到：开发可扩展的计算系统及相关软件，以支持太位级网络传输性能，开发千兆比特网络技术，扩展研究和教育机构及网络连接能力。

该项目主要由五部分组成：

1、高性能计算机系统(HPCS)，内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等;

2、先进软件技术与算法(ASTA)，内容有巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算计算及高性能计算研究中心等;

3、国家科研与教育网格(NREN)，内容有中接站及10亿位级传输的研究与开发;

4、基本研究与人类资源(BRHR)，内容有基础研究、培训、教育及课程教材，被设计通过奖励调查者-开始的，长期的调查在可升级的高性能计算中来增加创新意识流，通过提高教育和高性能的计算训练和通信来加大熟练的和训练有素的人员的联营，和来提供必需的基础架构来支持这些调查和研究活动;

5、信息基础结构技术和应用(IITA )，目的在于保证美国在先进信息技术开发方面的领先地位。

三、Storm

Storm是一个免费开源、分布式、高容错的实时计算系统。Storm令持续不断的流计算变得容易，弥补了Hadoop批处理所不能满足的实时要求。Storm经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。Storm的部署管理非常简单，而且，在同类的流式计算工具，Storm的性能也是非常出众的。

Storm是自由的开源软件，一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流，用于处理Hadoop的批量数据。Storm很简单，支持许多种编程语言，使用起来非常有趣。Storm由Twitter开源而来，其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster等等。

Storm有许多应用领域：实时分析、在线机器学习、不停顿的计算、分布式RPC(远过程调用协议，一种通过网络从远程计算机程序上请求服务)、 ETL(Extraction-Transformation-Loading的缩写，即数据抽取、转换和加载)等等。Storm的处理速度惊人：经测试，每个节点每秒钟可以处理100万个数据元组。Storm是可扩展、容错，很容易设置和 *** 作。

四、Apache Drill

为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法，Apache软件基金会近日发起了一项名为"Drill"的开源项目。Apache Drill 实现了Google’s Dremel。"Drill"已经作为Apache孵化器项目来运作，将面向全球软件工程师持续推广。

该项目将会创建出开源版本的谷歌Dremel Hadoop工具(谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速)。而"Drill"将有助于Hadoop用户实现更快查询海量数据集的目的。

"Drill"项目其实也是从谷歌的Dremel项目中获得灵感：该项目帮助谷歌实现海量数据集的分析处理，包括分析抓取Web文档、跟踪安装在Android Market上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等等。

通过开发"Drill"Apache开源项目，组织机构将有望建立Drill所属的API接口和灵活强大的体系架构，从而帮助支持广泛的数据源、数据格式和查询语言。

五、RapidMiner

RapidMiner提供机器学习程序。而数据挖掘，包括数据可视化，处理，统计建模和预测分析。

功能和特点

免费提供数据挖掘技术和库；100%用Java代码(可运行在 *** 作系统)；数据挖掘过程简单，强大和直观；内部XML保证了标准化的格式来表示交换数据挖掘过程；可以用简单脚本语言自动进行大规模进程；多层次的数据视图，确保有效和透明的数据；图形用户界面的互动原型；命令行(批处理模式)自动大规模应用；Java API(应用编程接口)；简单的插件和推广机制；强大的可视化引擎，许多尖端的高维数据的可视化建模；400多个数据挖掘运营商支持；耶鲁大学已成功地应用在许多不同的应用领域，包括文本挖掘，多媒体挖掘，功能设计，数据流挖掘，集成开发的方法和分布式数据挖掘。

RapidMiner的局限性；RapidMiner 在行数方面存在大小限制；对于RapidMiner，您需要比ODM和SAS更多的硬件资源。

六、Pentaho BI

Pentaho BI 平台不同于传统的BI 产品，它是一个以流程为中心的，面向解决方案(Solution)的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来，方便商务智能应用的开发。它的出现，使得一系列的面向商务智能的独立产品如Jfree、Quartz等等，能够集成在一起，构成一项项复杂的、完整的商务智能解决方案。

Pentaho BI 平台，Pentaho Open BI 套件的核心架构和基础，是以流程为中心的，因为其中枢控制器是一个工作流引擎。工作流引擎使用流程定义来定义在BI 平台上执行的商业智能流程。流程可以很容易的被定制，也可以添加新的流程。BI 平台包含组件和报表，用以分析这些流程的性能。目前，Pentaho的主要组成元素包括报表生成、分析、数据挖掘和工作流管理等等。这些组件通过 J2EE、WebService、SOAP、>

Pentaho SDK共包含五个部分：Pentaho平台、Pentaho示例数据库、可独立运行的Pentaho平台、Pentaho解决方案示例和一个预先配制好的 Pentaho网络服务器。其中Pentaho平台是Pentaho平台最主要的部分，囊括了Pentaho平台源代码的主体;Pentaho数据库为 Pentaho平台的正常运行提供的数据服务，包括配置信息、Solution相关的信息等等，对于Pentaho平台来说它不是必须的，通过配置是可以用其它数据库服务取代的;可独立运行的Pentaho平台是Pentaho平台的独立运行模式的示例，它演示了如何使Pentaho平台在没有应用服务器支持的情况下独立运行;

Pentaho解决方案示例是一个Eclipse工程，用来演示如何为Pentaho平台开发相关的商业智能解决方案。

Pentaho BI 平台构建于服务器，引擎和组件的基础之上。这些提供了系统的J2EE 服务器，安全，portal，工作流，规则引擎，图表，协作，内容管理，数据集成，分析和建模功能。这些组件的大部分是基于标准的，可使用其他产品替换之。

七、Druid

Druid是实时数据分析存储系统，Java语言中最好的数据库连接池。Druid能够提供强大的监控和扩展功能。

八、Ambari

大数据平台搭建、监控利器;类似的还有CDH

1、提供Hadoop集群

Ambari为在任意数量的主机上安装Hadoop服务提供了一个逐步向导。

Ambari处理集群Hadoop服务的配置。

2、管理Hadoop集群

Ambari为整个集群提供启动、停止和重新配置Hadoop服务的中央管理。

3、监视Hadoop集群

Ambari为监视Hadoop集群的健康状况和状态提供了一个仪表板。

九、Spark

大规模数据处理框架(可以应付企业中常见的三种数据处理场景：复杂的批量数据处理(batch data processing);基于历史数据的交互式查询;基于实时数据流的数据处理，Ceph:Linux分布式文件系统。

十、Tableau Public

1、什么是Tableau Public - 大数据分析工具

这是一个简单直观的工具。因为它通过数据可视化提供了有趣的见解。Tableau Public的百万行限制。因为它比数据分析市场中的大多数其他玩家更容易使用票价。使用Tableau的视觉效果，您可以调查一个假设。此外，浏览数据，并交叉核对您的见解。

2、Tableau Public的使用

您可以免费将交互式数据可视化发布到Web;无需编程技能;发布到Tableau Public的可视化可以嵌入到博客中。此外，还可以通过电子邮件或社交媒体分享网页。共享的内容可以进行有效硫的下载。这使其成为最佳的大数据分析工具。

3、Tableau Public的限制

所有数据都是公开的，并且限制访问的范围很小;数据大小限制;无法连接到[R ;读取的唯一方法是通过OData源，是Excel或txt。

十一、OpenRefine

1、什么是OpenRefine - 数据分析工具

以前称为GoogleRefine的数据清理软件。因为它可以帮助您清理数据以进行分析。它对一行数据进行 *** 作。此外，将列放在列下，与关系数据库表非常相似。

2、OpenRefine的使用

清理凌乱的数据;数据转换;从网站解析数据;通过从Web服务获取数据将数据添加到数据集。例如，OpenRefine可用于将地址地理编码到地理坐标。

3、OpenRefine的局限性

Open Refine不适用于大型数据集;精炼对大数据不起作用

十二、KNIME

1、什么是KNIME - 数据分析工具

KNIME通过可视化编程帮助您 *** 作，分析和建模数据。它用于集成各种组件，用于数据挖掘和机器学习。

2、KNIME的用途

不要写代码块。相反，您必须在活动之间删除和拖动连接点;该数据分析工具支持编程语言;事实上，分析工具，例如可扩展运行化学数据，文本挖掘，蟒蛇，和[R 。

3、KNIME的限制

数据可视化不佳

十三、Google Fusion Tables

1、什么是Google Fusion Tables

对于数据工具，我们有更酷，更大版本的Google Spreadsheets。一个令人难以置信的数据分析，映射和大型数据集可视化工具。此外，Google Fusion Tables可以添加到业务分析工具列表中。这也是最好的大数据分析工具之一，大数据分析十八般工具。

2、使用Google Fusion Tables

在线可视化更大的表格数据;跨越数十万行进行过滤和总结;将表与Web上的其他数据组合在一起；您可以合并两个或三个表以生成包含数据集的单个可视化;

3、Google Fusion Tables的限制

表中只有前100,000行数据包含在查询结果中或已映射;在一次API调用中发送的数据总大小不能超过1MB。

十四、NodeXL

1、什么是NodeXL

它是关系和网络的可视化和分析软件。NodeXL提供精确的计算。它是一个免费的(不是专业的)和开源网络分析和可视化软件。NodeXL是用于数据分析的最佳统计工具之一。其中包括高级网络指标。此外，访问社交媒体网络数据导入程序和自动化。

2、NodeXL的用途

这是Excel中的一种数据分析工具，可帮助实现以下方面：

数据导入;图形可视化;图形分析;数据表示;该软件集成到Microsoft Excel 2007,2010,2013和2016中。它作为工作簿打开，包含各种包含图形结构元素的工作表。这就像节点和边缘;该软件可以导入各种图形格式。这种邻接矩阵，Pajek net，UCINet dl，GraphML和边缘列表。

3、NodeXL的局限性

您需要为特定问题使用多个种子术语;在稍微不同的时间运行数据提取。

十五、Wolfram Alpha

1、什么是Wolfram Alpha

它是Stephen Wolfram创建的计算知识引擎或应答引擎。

2、Wolfram Alpha的使用

是Apple的Siri的附加组件;提供技术搜索的详细响应并解决微积分问题;帮助业务用户获取信息图表和图形。并有助于创建主题概述，商品信息和高级定价历史记录。

3、Wolfram Alpha的局限性

Wolfram Alpha只能处理公开数字和事实，而不能处理观点;它限制了每个查询的计算时间;这些数据分析统计工具有何疑问

十六、Google搜索运营商

1、什么是Google搜索运营商

它是一种强大的资源，可帮助您过滤Google结果。这立即得到最相关和有用的信息。

2、Google搜索运算符的使用

更快速地过滤Google搜索结果;Google强大的数据分析工具可以帮助发现新信息。

十七、Excel解算器

1、什么是Excel解算器

Solver加载项是Microsoft Office Excel加载项程序。此外，它在您安装Microsoft Excel或Office时可用。它是excel中的线性编程和优化工具。这允许您设置约束。它是一种先进的优化工具，有助于快速解决问题。

2、求解器的使用

Solver找到的最终值是相互关系和决策的解决方案;它采用了多种方法，来自非线性优化。还有线性规划到进化算法和遗传算法，以找到解决方案。

3、求解器的局限性

不良扩展是Excel Solver缺乏的领域之一;它会影响解决方案的时间和质量;求解器会影响模型的内在可解性;

十八、Dataiku DSS

1、什么是Dataiku DSS

这是一个协作数据科学软件平台。此外，它还有助于团队构建，原型和探索。虽然，它可以更有效地提供自己的数据产品。

2、Dataiku DSS的使用

Dataiku DSS - 数据分析工具提供交互式可视化界面。因此，他们可以构建，单击，指向或使用SQL等语言。

3、Dataiku DSS的局限性

有限的可视化功能;UI障碍：重新加载代码/数据集;无法轻松地将整个代码编译到单个文档/笔记本中;仍然需要与SPARK集成

以上的工具只是大数据分析所用的部分工具，小编就不一一列举了，下面把部分工具的用途进行分类：

1、前端展现

用于展现分析的前端开源工具有JasperSoft，Pentaho, Spagobi, Openi, Birt等等。

用于展现分析商用分析工具有Style Intelligence、RapidMiner Radoop、Cognos, BO, Microsoft Power BI, Oracle,Microstrategy,QlikView、 Tableau 。

国内的有BDP，国云数据(大数据分析魔镜)，思迈特，FineBI等等。

2、数据仓库

有Teradata AsterData, EMC GreenPlum, HP Vertica 等等。

3、数据集市

有QlikView、 Tableau 、Style Intelligence等等。

当然学大数据分析也有很多坑：

《转行大数据分析师后悔了》、《零基础学大数据分析现实吗》、《大数据分析培训好就业吗》、《转行大数据分析必知技能》

以上就是关于网站数据挖掘--基础部分（未完）全部的内容，包括:网站数据挖掘--基础部分（未完）、数据挖掘会用到什么编程语言，jawa 、c 或 c++还是别的什么、八个最佳的数据中心开源挖掘工具等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/10033715.html

网站数据挖掘--基础部分（未完）

发表评论

评论列表（0条）