使用Oracle数据挖掘API方法详解_工具

Oracle 发布了 PL/SQL 和 Java 应用编程接口 (API) 后市场上才会推出可利用这一新发布的 API 的点击工具或构建器这一般是最好的做法利用这一实践开发人员可将新功能即刻融入其应用程序中以使其企业从中获益

然而开发可利用新发布 API 的专门工具需要投入大量精力因此理想情况下从 API 发布直至推出利用该 API 的直观最终用户工具至少需要数个月而实际上这一滞后时间通常为一年或两年同时利用 API 可能需要企业使用自己的工具或更为常见的是利用即席解决方案例如在报表生成器和电子表格中嵌入对 API 的调用

一种常用方法是将 API 包装在数个脚本中然后使用自定义按钮和菜单从电子表格访问这些脚本但是这一方法的主要缺点在于如今的电子表格是将单个单元格中的文本和数字作为值来进行处理的因此它通常不是处理新功能的合适工具

本文将介绍如何快速将分析和其他 API 整合至一个最终用户可从其中轻松访问新代码的电子表格平台作为指导性示例其中还将阐释了如何将Oracle 数据挖掘(PL/SQL) API 重新打包为 Java API 以及如何从电子表格调用的 J Cells 访问该 API J Cells 完全以 Oracle JDeveloper 编写它不仅可以将文本和数字作为单元格的值而且还可将 Java 对象作为值进行处理并可从其单元格直接访问任何 Java API 以即刻进行部署

电子表格平台

我使用的是电子表格界面只是其中允许用户在单元格中创建任何 Java 对象以及使用基元 Java 类型每个单元格都可用作另一个单元格的变量用户可以选择在单元格中直接编写 Java 代码或使用其他格式将电子表格界面和对象(而不仅是常规电子表格中的数字和文本)使用相结合是自动进行的 J Cells 为每个适合单元格的对象计算指示值这一指示值给予用户有关显示对象的充足线索此外还会实施一个完整的值系统可根据需要(例如当用户双击给定单元格时)以各种其他格式显示对象即使在电子表格中因为公式可能定义比较复杂所以系统还需识别要创建的对象是否具有相关的向导向导通常是一个特定于某个对象类型的图形化代码生成器稍后本文示例将说明如何在 J Cells 中使用向导

图显示了本文示例的电子表格界面

图 J Cells 的电子表格界面

数据挖掘 API

Oracle 支持两种兼容的 API 以访问数据库中的数据挖掘功能第一种是 PL/SQL API 其中包括 DBMS_DATA_MINING 程序包另一种也是 Java API 称为 Oracle 数据挖掘 Java API 因为 J Cells 目前最适合访问 Java API 所以需要以可直接从 Java 对其进行访问的方式打包 PL/SQL API 两个主要的 Oracle 数据挖掘概念是设置和模型设置概念基本围绕带有两列(setting_name 和 setting_value)的设置表构建;其中 setting_name 是挖掘算法使用的属性名而 setting_value 是与该属性相对应的值

DBMS_DATA_MINING 程序包包含若干过程包括 CREATE_MODEL 和 APPLY CREATE_MODEL 过程根据设置表(作为过程的参数之一提供)中的值为给定挖掘函数和数据集创建挖掘模型该过程简单且易于使用实际上由用户来为要创建的模型要使用的挖掘函数包含要使用的数据的表要建模的列以及设置表提供名称这一方法的优点在于所有不同算法都可以类似的方法调用每种算法的微调都整合至设置表中但在很多情况下各种设置系数可由算法本身自动决定设置表中条目的复杂性根据用户的专业技术背景和算法而有所不同许多专业用户可能希望手动设置所有可能的系数而我们中的多数人更可能乐意系统自动给出适用设置 Oracle 提供了一个要用作设置键的常量列表以及命名为常量或数字间隔的值

表 algo_name(算法名)设置键的值

Oracle 的算法名 (algo_name) 键的常量值如上所示对于其中的每一个值使用了可能键和值的不同集等以下(图 )显示了向导函数是如何将这些键映射到树结构并允许用户通过 *** 纵该设置树定义设置表的

作为 Oracle 数据库中创建的挖掘模型 DBMS_DATA_MINING APPLY 过程用于将该模型应用到新数据集而且这是一个易于使用的过程要求只输入挖掘模型名包含新数据集的表名用于识别新数据集中行的列以及结果数据集名 Java 类 OracleMiningModel (below) 在调用预测评分或 apply 方法时都会利用该 APPLY 过程此外 DBMS_DATA_MINING 程序包包含若干根据类型将各个模型详细信息作为结果集或以 XML 格式返回的函数这些细节函数也可通过使用 OracleMiningModel 类的实例(代表数据库中的不同模型)进行访问

此处可通过创建一个称为 OracleModelSettings 的 Java 类以 Java 打包 (PL/SQL) 设置概念该类具有灵活的构造函数和各种签名包括

public OracleModelSettings ( String modelSettingsName

Connection databaseConnection

String[] keyToValueStringMap)

throws SQLException

keyToValueStringMap 只是表单 > 的字符串数组该数组详细说明了设置表的行以及负责在数据库中维护设置表的类

类似地此处也可通过创建一个称为 OracleMiningModel 的 Java 类以 Java 打包模型概念该类具有构造函数和各种签名包括

public OracleMiningModel ( String modelName

OracleModelSettings oms

String[] keyToValueStringMap)

boolean recreate)

throws SQLException

此处使用 keyToValueMappings 数组来确定在 Oracle 数据库中创建数据挖掘模型所需的算法以及其他命名属性该类的用途就是创建和维护数据挖掘模型此外 OracleMiningModel 类还定义了用于检索以及将该模型应用到新数据集的方法这些方法包括以下各项此处只显示了一小部分

public OracleResultSet infoAprioriAssociationRules(int topn)

public OracleResultSet infoAprioriFrequentItemsets(int topn)

public OracleResultSet infoAdaptiveBayesNeork()

public OracleResultSet infoAIMinimumDescLength()

public OracleResultSet infoKMeans()

public OracleResultSet infoNaiveBayes()

public OracleResultSet infoNonnegativeMatrixFactorization()

public OracleResultSet infoOCluster()

public OracleResultSet infoSupportVectorMachines()

public XMLType infoDecisionTree()

public Object getPrediction(String[] signature double[] doubleVal)

public HashMap score(String[] signature double[] doubleVal)

public OracleResultSet apply( String dataTable

String caseID

String resultTable

String schema

boolean overwrite)

除了具有上述签名外所有的方法可能都会引发 SQL 意外一旦可以从两个简单类来管理数据挖掘功能后就可调用该电子表格平台来访问任何可用的数据挖掘算法以在 Oracle 数据库中建模数据集

数据挖掘示例

因此来看一个在该系统中编写的小数据挖掘模型该模型可通过访问 Oracle 数据库创建并运行 ODM (Oracle Data Mining) 回归模型该回归模型的用途是根据输入(例如血压高度和体重)预测心率使用 J Cells 可直接访问 Java API 以实例化对象并在对象上调用方法首先连接至 Oracle 数据库 DataSource 对象可通过将以下公式

() = ~ OracleDataSource( agust agust dbVaio vaioFS );

输入到电子表格的单元格 b 中进行实例化 Tilde 符号 (~) 表示缩写符号允许 J Cells 将(右侧)语句转换为构造函数t new cell OracleDataSource( agust agust dbVaio vaioFS ); 使系统能够以用户 agust 的身份访问服务器 vaioFS 上的数据库 dbVaio

现在可通过在 DataSource 对象上调用正确的方法(例如在单元格 b 和 b 中分别输入以下公式) 获得数据库连接以及检查数据库中的源数据

() = b getConnection();

() = b query( select from pulse_clinical );

第一个语句将向单元格 b 中返回一个 java sql Connection 对象第二个语句将向单元格 b 中返回一个 java sql ResultSet 对象只需通过双击单元格 (b ) 就可检查结果集该 *** 作会将结果表显示在表格框架中以便查看

迄今为止我只在该电子表格中创建了几个简单的数据对象现在可以调用数据挖掘 API 来定义一个设置对象然后创建一个简单的数据挖掘模型首先通过在单元格 b 中输入以下语句来创建一个设置对象

() = new cell odm OracleModelSettings( xyz_settings b

new String[]{

algo_name > algo_support_vector_machines

svms_kernel_function > svms_linear } );

立刻我发现该公式中的问题是最终用户友好的因此注册一个带有 J Cells 的向导在提示用户后自动生成该公式可能是个不错的办法一般电子表格在用户创建复杂公式时都会给予帮助因此用户可以期望在实例化对象时获得指导

部署的向导如图所示

图典型的向导界面

同样数据挖掘模型通过使用向导或输入公式来创建在这两种情况中结果模型都是在直接指定 API 调用的单元格 b 中进行实例化

()= new cell odm OracleMiningModel( xyz_model b

new String[]{

data_table_name > pulse_clinical

mining_function > regression

target_column_name > pulse

case_id_column_name > subject }

false );

使用该公式结果实例化数据挖掘模型将在 Oracle 数据库中生成标准的 Oracle 数据挖掘模型该模型可通过双击单元格 b 进行查看模型的完整值如图所示

图查看单元格 b 中的模型

使用上述的 OracleMiningModel 方法可将该模型应用到 Oracle 数据库中的数据集作为一个简单的交互式评分模型(一般适用于电子表格应用程序) 用户可能希望输入血压高度和体重值让数据库使用刚才定义的模型预测心率这个在模型对象上定义的 Java API 方法 getPrediction 非常适合这一用途在单元格 e e e 以及 e 中(以单元格 b 中签名数组指定的顺序)键入输入值后通过输入以下公式可进行评分

() = b getPrediction(b new double[]{e e e e });

同样该公式将直接访问 Java API 以获取并在单元格 e 中显示评分结果如图所示

图将模型应用到输入值

电子表格优点

电子表格在最终用户之间的流行多少有些令人费解一方面当今最常用的电子表格系统长期以来令许多开发人员气馁他们习惯于更为灵活强大的系统而另一方面对于非开发人员而言使用电子表格系统具有以下一些明显优点无须构建图形化用户界面单独构建和测试每个公式(代码)以及隐藏公式看到的是更为简单的计算结果这些优点只存在于当今流行的电子表格中使用公式可将数字或文本返回到单元格而许多系统主要受限于此此处演示了如何移除这一限制并创建更为强大的工具然后用它来直接访问 Oracle 的数据挖掘模型功能以及其他 API

结论

lishixinzhi/Article/program/Oracle/201311/17437

在使用GitHub API爬取数据时，是否需要建立数据库取决于您的需求和数据量。如果您只需要获取少量数据，可以直接将其存储在内存中或者写入本地文件中。但是，如果您需要获取大量数据或者需要对数据进行复杂的处理和分析，建立数据库可以更好地管理和组织数据，并且可以提高数据的查询和处理效率。此外，建立数据库还可以方便地对数据进行备份和恢复，确保数据的安全性和可靠性。因此，建立数据库可以提高数据的管理和利用效率，但也需要考虑到数据库的维护和管理成本。

API 返回多少条数据才能达到最佳性能取决于多个因素，例如网络带宽、服务器负载、目标客户端设备的处理能力等。通常情况下，建议从 API 中返回合适的数据量以确保网络数据传输瓶颈不会影响性能。同时，需要考虑客户端设备的处理能力，确保不会消耗过多的内存和计算资源。

在选择每次返回多少条数据的时候，可以考虑以下几个因素：

1 目标客户端设备的处理能力和内存大小

2 网络带宽和延迟

3 执行查询和处理每条数据所需的时间

4 数据库和服务器的负载

在实际应用中，一般不建议一次性返回太多数据，可以设置一个合理的每页数据量，然后使用分页功能来获取所有数据。例如，一个具有大量数据的网站可以将每页返回 10-50 条数据，然后使用分页来实现数据的获取和展示。这样可以确保网络带宽和服务器负载不会过高，同时也不会占用过多的客户端设备资源。

根据全网搜索内容得知，结果如下：《aPi对接日志存到数据库不合理。》存入数据库再调用业务方法，接口日志和业务逻辑是完全不相关的，而且接口日志存入数据库是需要io耗时的，这样会拖慢接口访问的，完全是没有用的，祝您生活愉快，谢谢提问

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9351272.html

使用Oracle数据挖掘API方法详解

发表评论

评论列表（0条）