全面解析基于空间数据库的数据挖掘技术[1]

全面解析基于空间数据库的数据挖掘技术[1],第1张

随着GIS技术在各个行业的应用以及数据挖掘 空间数据采集技术 数据库技术的迅速发展 对从空间数据库发现隐含知识的需求日益增长 从而出现了用于在空间数据库中进行知识发现的技术——空间数据挖掘(Spatial Data Mining 本文简称为SDM) 空间数据挖掘是从空间数据库中提取隐含的 用户感兴趣的空间和非空间模式和普遍特征的过程

本文分析了空间数据库知识发现面临的困难 研究了扩展传统数据挖掘方法如分类 关联规则 聚类等到空间数据库的方法 并对空间数据库系统实现技术及空间数据挖掘系统开发模式等进行了比较分析

空间数据库知识发现面临的困难

从空间数据库发现知识的传统途径是通过专家系统 数据挖掘 空间分析等技术来实现的 但是在空间数据库隐含知识的发现方面 只单独依某一种技术 往往存在着这样或那样的缺陷 对于专家系统来讲 专家系统不具备自动学习的能力 GIS中的专家系统也达不到真正的智能系统的要求 仅能利用已有的知识进行推导 对于数据挖掘来讲 空间数据库与普通数据库的在数据存储机制的不同和空间数据的相互依赖性等特点决定了在空间数据库无法直接采用传统的数据挖掘方法 对于空间分析来讲 虽然空间分析中常用的统计方法可以很好地处理数字型数据 但是它存在的问题很多 如统计方法通常假设空间分布的数据间是统计上独立的 而现实中空间对象间一般是相互关联的;其次 统计模型一般只有具有相当丰富领域知识和统计方面经验的统计专家才能用;另外 统计方法对大规模数据库的计算代价非常高 所以在处理海量数据方面能力较低

从上面的分析可以看出 由于空间数据具有诸多特点 因此在空间数据库进行知识发现 需要克服使用单一技术的缺陷 即需要融合多种不同技术 所以研究人员提出了空间数据挖掘技术来解决从空间数据库知识发现隐含知识的难题

空间数据挖掘是多学科和多种技术交综合的新领域 它综合了机器学习 空间数据库系统 专家系统 可移动计算 统计 遥感 基于知识的系统 可视化等领域的有关技术

空间数据挖掘利用空间数据结构 空间推理 计算几何学等技术 把传统的数据挖掘技术扩充到空间数据库并提出很多新的有效的空间数据挖掘方法 与传统空间分析方法相比 它在实现效率 与数据库系统的结合 与用户的交互 发现新类型的知识等方面的能力大大增强 空间数据挖掘能与GIS的结合 使GIS系统具有自动学习的功能 能自动获取知识 从而成为真正的智能空间信息系统

扩展传统数据挖掘方法到空间数据库

空间数据挖掘技术按功能划分可分为三类 描述 解释 预测 描述性的模型将空间现象的分布特征化 如空间聚类 解释性的模型用于处理空间关系 如处理一个空间对象和影响其空间分布的因素之间的关系 预测型的模型用来根据给定的一些属性预测某些属性 预测型的模型包括分类 回归等 以下介绍将几个典型的数据挖掘技术聚类 分类 关联规则扩展到空间数据库的方法

聚类分析方法按一定的距离或相似性测度将数据分成一系列相互区分的组 而空间数据聚类是按照某种距离度量准则 在某个大型 多维数据集中标识出聚类或稠密分布的区域 从而发现数据集的整个空间分布模式 经典统计学中的聚类分析方法对海量数据效率很低 而数据挖掘中的聚类方法可以大大提高聚类效率 文献[ ]中提出两个基于CLARANS聚类算法空间数据挖掘算法SD和ND 可以分别用来发现空间聚类中的非空间特征和具有相同非空间特征的空间聚类 SD算法首先用CLARANS算法进行空间聚类 然后用面向属性归纳法寻找每个聚类中对象的高层非空间描述;ND算法则反之 文献[ ]中提出一种将传统分类算法ID 决策树算法扩展到空间数据库的方法 该算法给出了计算邻近对象非空间属性的聚合值的方法 并且通过对空间谓词进行相关性分析和采用一种逐渐求精的策略使得计算时间复杂度大大降低 Koperski等[ ]将大型事务数据库的关联规则概念扩展到空间数据库 用以找出空间对象的关联规则 此方法采用一种逐渐求精的方法计算空间谓词 首先在一个较大的数据集上用MBR最小边界矩形结构技术对粗略的空间谓词进行近似空间运算 然后在裁剪过的数据集上用代价较高的算法进一步改进挖掘的质量

空间数据库实现技术

空间数据挖掘系统中 空间数据库负责空间数据和属性数据的管理 它的实现效率对整个挖掘系统有着举足轻重的影响 所以下面详细介绍空间数据库的实现技术

根据空间数据库中空间数据和属性数据的管理方式 空间数据库有两种实现模式 集成模式和混合模式 后者将非空间数据存储在关系数据库中 将空间数据存放在文件系统中 这种采用混合模式的空间数据库中 空间数据无法获得数据库系统的有效管理 并且空间数据采用各个厂商定义的专用格式 通用性差 而集成模式是将空间数据和属性数据全部存储在数据库中 因此现在的GIS软件都在朝集成结构的空间数据库方向发展 下面对集成结构的空间数据库技术中的两个主流技术基于空间数据引擎技术的空间数据库和以Oracle Spatial为代表的通用空间数据库进行比较分析

空间数据引擎是一种处于应用程序和数据库管理系统之间的中间件技术 使用不同GIS厂商的客户可以通过空间数据引擎将自身的数据交给大型关系型DBMS统一管理;同样 客户也可以通过空间数据引擎从关系型DBMS中获取其他类型GIS的数据 并转化成客户可使用的方式 它们大多是在Oracle i Spatial(较成熟的空间数据库版本 于 年 月推出)推出之前由GIS软件开发商提供的将空间数据存入通用数据库的解决方案 且该方案价格昂贵

Oracle Spatial提供一个在数据库管理系统中管理空间数据的完全开放体系结构 Oracle Spatial提供的功能与数据库服务器完全集成 用户通过SQL定义并 *** 作空间数据 且保留了Oracle的一些特性 如灵活的n 层体系结构 对象定义 健壮的数据管理机制 Java存储过程 它们确保了数据的完整性 可恢复能力和安全性 而这些特性在混合模式结构中几乎不可能获得 在Oracle Spatial中 用户可将空间数据当作数据库的特征使用 可支持空间数据库的复制 分布式空间数据库以及高速的批量装载 而空间中间件则不能 除了允许使用所有数据库特性以外 Spatial Cart ridge还提供用户使用行列来快速访问数据 使用简单的SQL语句 应用者就能直接选取多个记录 Spatial Cart ridge数据模型也给数据库管理员提供了极大的灵活性 DBA可使用常见的管理和调整数据库的技术

空间数据挖掘系统的开发

通用SDM系统

在空间数据挖掘系统的开发方面 国际上最著名的有代表性的通用SDM系统有 GeoMiner Descartes和ArcView GIS的S PLUS接口 GeoMiner是加拿大Simon Fraser大学开发的著名的数据挖掘软件DBMiner的空间数据挖掘的扩展模块 空间数据挖掘原型系统GeoMiner包含有三大模块 空间数据立方体构建模块 空间联机分析处理(OLAP)模块和空间数据采掘模块 能够进行交互式地采掘并显示采掘结果 空间数据采掘模块能采掘 种类型的规则 特征规则 判别规则和关联规则 GeoMiner采用SAND体系结构 采用的空间数据采掘语言是GMQL 其空间数据库服务器包括MapInfo ESRI/OracleSDE Informix Illustra以及其它空间数据库引擎

Descartes可支持可视化的分析空间数据 它与开发此软件的公司所开发的数据挖掘工具Kepler结合使用 Kepler完成数据挖掘任务且拥有自己的表现数据挖掘结果的非图形界面 Kepler和Descarte动态链接 把传统DM与自动作图可视化和图形表现 *** 作结合起来 实现C 决策树算法 聚类 关联规则的挖掘

ArcView GIS的S PLUS接口是著名的ESRI公司开发的 它提供工具分析空间数据中指定类

除了以上空间数据挖掘系统外 还有GwiM等系统

从以上SDM系统可以看出 它们的共同优点是把传统DM与地图可视化结合起来 提供聚类 分类等多种挖掘模式 但它们在空间数据的 *** 作上实现方式不尽相同 Descartes是专门的空间数据可视化工具 它只有与DM工具Kepler结合在一起 才能完成SDM任务 而GeoMiner是在MapInfo平台上二次开发而成 系统庞大 造成较大的资源浪费 S PLUS的局限在于 它采用一种解释性语言(Script) 其功能的实现比用C和C++直接实现要慢得多 所以只适合于非常小的数据库应用 基于现存空间数据挖掘系统的结构所存在的缺陷 我们提出空间数据挖掘系统一种新的实现方案

lishixinzhi/Article/program/SQL/201311/16146

空间地理数据的表示主要有栅格和矢量两种不同的形式。栅格形式是将地理表层空间划分为一系列网格,空间目标由这些网格的位置及其量化值来表示; 矢量形式则是将地理空间的一切事物、概念进行抽象,形成点、线、面,再由点、线、面来组成各类空间目标。由于数据获取、数据表达、地图投影等方面的原因,在计算机世界里,地理信息往往被表示成不连续的子空间,为了更好地模拟客观世界,人们需要处理成连续无缝的数据( 朱欣焰等,2002) 。

塔里木河流域地域广阔,地理坐标介于东经 73°10' ~94°05',北纬 34°55' ~43°08'之间,东西跨越了 4 个六度带,而通过数据采集系统所采集的各种基础图件都是分幅的,采用平面直角坐标系统。如果将这些数据直接进行入库将在跨带处产生缝隙,不能形成逻辑意义上完整的河流表现,也无法完成基于整个流域的生态环境分析。因此,必须采用相应的数据处理与建库技术,实现塔河整个流域数据的无缝集成管理,使之形成统一的整体。

空间数据的无缝管理是一个建立在用户与空间数据库接口基础上的概念,它是空间数据库中空间数据集成的结果,即在用户的接口上实现对空间数据按空间、时间和专题的透明访问。空间透明或空间无缝是指对空间数据集按空间三维进行集成,形成地理空间上无缝连接的整体集成信息。时间透明是指对空间数据库中的数据按时间维进行集成,形成在时间上连续的整体集成信息。专题透明是指对空间数据库中的数据按属性维进行集成,形成在某一属性上连续的整体集成信息。空间数据无缝镶嵌技术主要应用在大范围、跨带区域数据的管理上。例如,在进行塔里木河整个流域范围内的水资源分析时,需要调用出整个流域的水系数据。每一条水系均要求有完整而统一的信息表示,而这些数据在采集时可能是分区域、分专题采集的,用户在分析时要求系统能够自动进行数据的镶嵌处理,形成无缝隙、统一坐标体系的数据。

要实现空间数据的无缝镶嵌,就需要从基础数据的获取开始,进行精心设计和组织,分离出数据物理层和数据逻辑层,在统一的空间框架之下,将物理层归化到逻辑层,以消除逻辑层的缝隙,从而实现用户级的逻辑无缝空间数据库。

本系统通过采集数据标准定义、空间数据框架设计等方面来实现空间无缝数据库的构建。

对采集的数据从投影、坐标系统、比例尺、数据精度等方面进行规范。对不同投影和坐标系统的空间数据在投影和坐标系统上统一采用相同的标准,例如,对矢量数据要求转换为无投影的地理坐标表示,栅格数据统一采用两套坐标表示,即平面直角坐标和地理坐标,以满足不同用户的管理需求和精度要求;规定了采用经纬度表示时数据的精度和表示方式。

建立无缝空间数据的关键,在于在合适的空间信息框架上实现多源异构空间数据的融合。框架是基础,融合是手段。空间信息框架的选择,需要满足多尺度和大区域表示两个方面。大区域的表示,系统采用大地线尺度空间表示,根据确定的空间框架在综合数据库中按对象建立了各种数据的存储表空间。多源异构空间数据的融合,可通过各类数据的元数据来实现。因此,系统也建立了相应的元数据库,并具有动态维护功能。

空间数据库包括属性库和图形库。建立图形库的基本方法是地图扫描矢量化。首先将地图扫描为栅格数据,通过栅格数据矢量化追踪出点、线;然后进行线拓扑错误检查,纠正拓扑错误;最后将线转换成弧段,建立拓扑关系,形成区文件。地图扫描矢量化具有速度快、精度高、自动化程度高等优点,正在成为 GIS 中最主要的地图数字化方式。为满足 GIS 分析、处理图件的要求,还需对图件进行处理,即通过 MapGIS 里的误差校正功能将所有图件调整到同一位置,便于以后的叠加分析,并通过投影变换将所有图件标准化。详见图 3-33。

利用 MapGIS 属性库管理子模块创建农用地分等属性库,具体包括单元编号、所属镇村、行政代码、面积(公顷)、分等因素指标值、分等指数等单元的基本属性(图 3-34)。

图3-33 MapGIS建立图形数据效果图

图3-34 MapGIS属性库管理界面

以上就是关于全面解析基于空间数据库的数据挖掘技术[1]全部的内容,包括:全面解析基于空间数据库的数据挖掘技术[1]、空间数据无缝镶嵌技术、空间数据库的建立等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9444385.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-28
下一篇 2023-04-28

发表评论

登录后才能评论

评论列表(0条)

保存