李丹秋
(广东省国土资源档案馆)
摘要 本文结合广东省地质资料管理和应用的实际情况,在已有地质资料空间数据库和非空间数据库的基础上,引入Ontology技术以解决空间数据库语义冲突问题,扩展和深化已有地质资料查询的结果,在原有“一张图”数据中心架构的基础上重新设计了广东省地质数据中心。
关键词 Ontology 地质数据中心 构建 模式 广东省
地质资料是地质工作形成的重要基础信息资源,具有可被重复开发利用、能够长期提供服务的重要功能(赵铭,2012)。自2010年国土资源部制定《推进地质资料信息服务集群化产业化工作方案》(国土资发〔2010〕113号)以来,广东省认真落实地质资料信息服务集群化产业化工作,由广东省国土资源档案馆承担建设,目前已初步构建省级地质资料数据集群与管理服务平台和网络服务体系,对广东省地质资料信息服务集群化产业化工作起到了很好的推动作用。然而现有数据中心的基本架构体系中采用基于数据驱动的数据交互方式,此种交互方式会产生诸如语义冲突、数据挖掘程度低等问题。为解决这些问题,我们通过依托Ontology在语义集成中的优势,提出了基于Ontology驱动的广东省地质数据中心设计。
1 Ontology技术概述
11 基本概念
Ontology最初是一个哲学概念,是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质,即“本体”(邓鸿志,2002)。本体(Ontology)通过建立概念体系,定义概念的属性、相互约束和关系的方式,实现领域知识的概念化共享(Guarino,1997b)。本体概念应包括四方面:保持独立性、定义的明确性、计算机可读性和具有共享性。经过近20年的发展,本体已经为知识转换、共享和数据集成等领域提供方法,被广泛用于解决数据互 *** 作能力问题。
地质本体的构建与引入为多源地质数据集成、地质知识的转化,以及地质数据的互 *** 作性等提供了技术基础,并在语义层上解决地质异构信息的集成和互 *** 作,从而促进并实现地质相关知识共享、交互和推理(Ma et al,2012)。特别是本体能够为数字基础设施提供语义匹配支持、解决分布式服务组配等问题(Gurnis et al,2011),形成了地球科学中若干的本体应用。
12 在地质信息领域中本体相关应用
目前,地质本体主要用于地质图、知识集成及共享。例如,GEON(是2002年由美国自然科学基金委员会信息技术研究项目(NSF Information Technology Research(ITR)program)资助的一个科研项目)工程中的地质本体主要用于地质图中异构概念模式的协调和异构地质图的组配(Lin et al,2008);基于SKOS建立的GTS多语言词典,可以解决在线地质图之间的多语言障碍(Ma et al,2012);通过建立基于词表的地质图检索服务,AuScope克服了在地球科学术语中的语义和语法上的不同(Woodcock et al,2010);Silva等人提出了应用本体实现地质影像的知识标记和解析,如地层形态和沉积结构、岩石视觉特征等(Silva et al,2004)。此外,地质本体被用于解决地质建模中地质语义异构、解析及构建地质知识模型等问题(侯卫生等,2009)。
总体来说,本体大致有两个不同层次的应用:底层应用与顶层应用。底层应用主要包括数据集成与互 *** 作、数据交换两个方面,即从语义上实现异构数据源重用、集成及互 *** 作,并对输入和输出的异构数据源进行校准;顶层应用主要包括服务和知识的集成、共享及互 *** 作等方面。顶层应用则以语义的方式集成各类服务,以获得有效工作流,实现知识的形式化、形式化知识推理及跨领域知识共享方式。
2 广东省地质数据现状分析
广东省国土资源档案馆已完成馆藏及厅矿政管理各类地质资料成果等数据资源的数据格式、数据完备程度等情况的分析整理,并根据地质资料数据集群与管理服务平台建设的要求,制定了地质资料数据集群与管理服务平台的数据库规范,做到统一数学基础、统一数据格式、统一数据分类的要求,提取各类数据的核心图层,建立各类空间数据库。初步建立起广东省国土资源“地质资料数据集群与管理服务平台”的基础核心数据体系。
目前,广东省国土资源档案馆所管理的数据库包括测绘、地质、矿产等多种空间和非空间数据库,具体见表1。
表1 广东省国土资源档案集群服务平台数据库列表
由此可见,目前省级档案馆在各类地质数据库中已积累、管理了大量地质数据,种类繁多、类型和结构也存在多样化,并且在相关业务的处理过程中,又会产生新的衍生数据。如何更好地挖掘地质知识以便更好地为地质服务已成为当务之急。
3 广东省地质数据中心设计
31 架构设计
现有国土“一张图”的基本架构体系中GIS空间数据引擎与基础数据库之间的数据交互是数据驱动的,由于不同数据库的多源异构的特征,这种基于数据驱动的数据交互方式会产生诸如语义冲突、数据挖掘程度低等问题。故此,我们通过依托Ontology在语义集成中的优势,构建了基于Ontology驱动的广东省地质数据中心设计模式(图1)。
图1 广东省地质数据中心设计
该数据中心包括以下几个部分:基础数据层、空间数据交互层、地质大数据处理分析层、数据管理基础平台、数字基础设施支撑体系和标准规范及汇交更新机制。数字基础设施支撑体系是整个数据中心的硬件基础,包括网络设施、服务器、存储设施等。基础数据层是指广东省国土资源档案馆所管理的各类数据。空间数据交互层主要为空间数据的交互查询、更新提供功能,它包括基于数据驱动的交互、GIS空间数据引擎、基于Ontology驱动的数据交互。地质大数据处理分析层是基于Ontology技术的一个地质知识挖掘和服务的中间层,是从结构化的地质数据库中直接提取各类地质概念,建立相应的概念间逻辑关系与语义关系,为多源地质数据语义提取和数据挖掘提供服务。数据管理基础平台为外在的数据录入、管理、分析等交互界面和处理功能,是整个数据中心的外在表现。
标准规范及汇交更新机制是指各类地质数据汇交、更新过程中所必须依据的标准和规范,是整个数据中心运转的制度保障。在各个平台的使用过程以及各部门的业务流转过程中,既需要从档案馆地质资料集群平台提取地质数据,同时会产生新的地质数据需要汇交到地质资料集群平台,并更新地质资料集群平台。在这样一个过程中,数据汇交、更新过程的标准和规范是必要的。
数据中心的底层是广东省国土资源档案馆管理的基础数据库,在数据库与空间数据引擎之间通过两种途径来实现数据交互:一是传统的基于数据驱动的数据交互,这类交互通过SQL语句或GSQL语句实现对空间和属性数据的获取、更新管理;二是通过Ontology来实现数据的查询,利用Ontology构建工具,基础数据库中的每一个数据库建立一个相应的Ontology,理顺数据库中各实体及相互之间的语义关系、以及所涉及的概念体系,从而为深度数据查询提供基础。两者通过GIS空间数据引擎共同构成了数据基础管理平台与基础数据库之间的沟通桥梁。
该技术架构的设计注重地质数据语义集成与分析,并且可以在不改变业务应用的前提下实现。其中地质本体的构建原则采用侯卫生等人(2013)提出的基于地质空间数据库的OWL本体自动构建方法,可实现一次构建,随时更新,永久保存的特性。
32 架构优势
基于Ontology驱动的数据交互和传统的基于数据驱动的数据交互相比具有明显的优势。基于Ontology驱动的数据交互优势主要包括两点:
一是解决语义冲突产生的问题,使查询结果更精确。基础数据库包括空间数据库、非空间数据库,它们来源广泛、结构各异、尺度不同、精度不一,对同一地质现象在不同数据库中的描述肯定不尽相同。如小比例尺空间数据库中对某区域岩性统一描述为“砂岩”,而大比例尺空间数据库中会细分为“含砾砂岩”、“含砂砾岩”、“泥质砂岩”、“砂质泥岩”、“含泥砂岩”等岩性描述。如果忽略了不同数据库间语义上的联系或冲突,单纯使用基于数据库的查询方法可能得到不准确的查询结果。而建立了Ontology之后,通过基于Ontology的查询就可以很好地规避这个问题。
二是建立了数据库之间的联系,深化查询结果。当前各个基础数据库之间是相互独立的,不同数据库之间的关联不紧密或者没有关联,在进行数据挖掘时很难挖掘出足够的信息。例如,对某区域的岩性“地质空间数据库”描述为“砂岩”,而“水文地质数据库”称为“砂质岩”,那么在基于数据库查询“砂岩”时,由于没有查到“砂质岩”的结果,这次查询就无法得到“水文地质数据库”中的信息。而Ontology建立了“砂岩”和“砂质岩”两个语义之间的联系,那么这两个数据库的数据都能被挖掘出来。
总之,依托结构化数据构建Ontolgy可以从中提取出各类概念及概念间的语义关系,可以更好地为地质知识挖掘服务。
4 小结
本文根据广东省地质数据管理现状,提出了基于Ontology驱动的广东省地质资料集群化平台的数据中心设计模式。与传统的基于数据驱动的模式相比,该数据中心设计模式可以解决空间数据查询时的语义冲突以及数据挖掘程度不够等问题,为今后拓展地质资料的集群化产业化应用领域,适应大数据的发展,以及更好地为地质数据知识挖掘和服务提供了良好的基础和数据保障。
参考文献
[1]Guarino,NUnderstanding,building and using ontologies[J]International Journal of Human–Computer Studies,1997,46(2~3):293~310
[2]Gurnis,M,Flesch,L,Okaya,D,et alEarthScope Cyber infrastructure Subcommittee(ECISC)Preliminary Strategic Plan for EarthScope Cyberinfrastructure[R]2011
[3]Lin,K,Bertram,LGEON:Ontology-Enabled Map Integration24th Annual ESRI International User Conference,[C]2008
[4]Ma,X,Carranza,EJM,Wu,C,et alOntology-aided annotation,visualization,and generalization of geological time-scale information from online geological map services[J]Computers & Geosciences,2012,40(3):107~119
[5]Silva OPda,Freitascmds,Abel MInteractive visualization of well data for supporting geological reservoir modeling2004
[6]Woodcock,R,Simons,B,Duclaux,G,et alAuScope’s use of standards to deliver earth resource dataGeophysical Research Abstracts 12,EGU2010-1556,EGU General Assembly,2010
[7]邓鸿志,等Ontology研究综述[J]北京大学学报(自然科学版),2009,38(5):730~738
[8]侯卫生,刘修国,吴信才,等面向三维地质建模的领域本体逻辑结构与构建方法[J]地理与地理信息科学,2009,25(1):27~31
[9]赵铭地质档案信息开发利用新趋势[J]档案管理2012(5):87
1联通宽带有包月、包半年及包年的优惠政策,可以选择适合的套餐使用,联通宽带上网速度快且稳定;2联通宽带有铜线和光纤接入,光纤的上网速率更快,一般有50M、100M、200M等速率的套餐,有限时套餐和不限时套餐;3若长期使用宽带,建议办理包年套餐,一般包年享受买10送2等优惠,会更便宜;另外,宽带还有与4G手机号码组合的融合套餐,会更优惠;4您可以到当地联通营业厅查看一下是否有适合需要的套餐;或可以登陆网上营业厅首页,切换到所在城市后,点击“查询>资费专区”可以查看一下所在城市的套餐介绍,选择适合的套餐;5因各省的宽带资费会有差异,具体当地的宽带资费标准,以当地客服或营业厅的咨询为准。所有服务器的类型在便利性、速度等性能方面都具备不同的优势。所以各种各样的公司和开发者,需要不同的服务器来满足各自的业务需求。您需要了解不同的在线业务托管类型,并查看每种配置如何适用于您的业务。
云服务器:速度和便利是至关重要当云服务器逐步发展成熟,许多企业和开发者将其与专用服务器进行比较,特别是那些无法将大部分预算用于香港服务器租用等的小型企业。
通过将业务托管在云计算平台,物理服务器和平台的维护、管理和升级的负担全部由云计算供应商负责,而不是由用户个人承担。云服务器本质上是大型物理服务器的一小部分。这块较大的物理硬件被虚拟化为远程服务器,用户可以通过互联网平台访问和使用该云端资源。
通过这种方式,企业几乎可以即时进行部署,如果您期望快速伸缩服务器资源或需要创建多个测试环境,这是一个巨大的优势。支付结构也是可扩展的,事实上大多数云服务器支持按需付费,这将大幅降低独立服务器租用的潜在成本。
云服务器也提供较高的稳定性。因为云服务器是在线虚拟化的,所以数据备份可以在几秒钟内访问,而当您在具有顶级维护和监控功能的云计算平台时,停机时间不再成为问题。
但是,所有这些便利都有一些缺点。传统上,IT专业人员认为云服务器的安全性不及独立服务器,尽管大多数云提供商都提供数据安全保护,但这些可能还不足以满足某些行业合规性标准。并且,根据您的商业模式,您可能不想将数据发送到云端。
独立服务器租用:提供更强大的数据安全性和更高的服务器需求某些企业更喜欢专属硬件的高性能和可靠性。频繁执行输入/输出(I / O) *** 作(例如大数据工具或数据库)的应用程序可能使用独立的物理服务器以达到更好的性能效果。
同样,租用或托管独立服务器可以提供对服务器环境的更多控制。您将可以便宜地添加内存、带宽、磁盘空间,尽管您需要等待更长时间的备份。不过,增加的性能和控制能力使得这款服务器结构非常适合定期,稳定增长和持续高需求的企业。
此外,出于安全原因,一些企业更喜欢独立服务器环境,尽管整体网站安全取决于实施,但与其他公司共享空间或在线管理服务器管理相比,租用独立服务器显然具有优势。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)