基于Ontology驱动的广东省地质数据中心设计

基于Ontology驱动的广东省地质数据中心设计,第1张

李丹秋

(广东省国土资源档案馆)

摘要 本文结合广东省地质资料管理和应用的实际情况,在已有地质资料空间数据库和非空间数据库的基础上,引入Ontology技术以解决空间数据库语义冲突问题,扩展和深化已有地质资料查询的结果,在原有“一张图”数据中心架构的基础上重新设计了广东省地质数据中心。

关键词 Ontology 地质数据中心 构建 模式 广东省

地质资料是地质工作形成的重要基础信息资源,具有可被重复开发利用、能够长期提供服务的重要功能(赵铭,2012)。自2010年国土资源部制定《推进地质资料信息服务集群化产业化工作方案》(国土资发〔2010〕113号)以来,广东省认真落实地质资料信息服务集群化产业化工作,由广东省国土资源档案馆承担建设,目前已初步构建省级地质资料数据集群与管理服务平台和网络服务体系,对广东省地质资料信息服务集群化产业化工作起到了很好的推动作用。然而现有数据中心的基本架构体系中采用基于数据驱动的数据交互方式,此种交互方式会产生诸如语义冲突、数据挖掘程度低等问题。为解决这些问题,我们通过依托Ontology在语义集成中的优势,提出了基于Ontology驱动的广东省地质数据中心设计。

1 Ontology技术概述

11 基本概念

Ontology最初是一个哲学概念,是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质,即“本体”(邓鸿志,2002)。本体(Ontology)通过建立概念体系,定义概念的属性、相互约束和关系的方式,实现领域知识的概念化共享(Guarino,1997b)。本体概念应包括四方面:保持独立性、定义的明确性、计算机可读性和具有共享性。经过近20年的发展,本体已经为知识转换、共享和数据集成等领域提供方法,被广泛用于解决数据互 *** 作能力问题。

地质本体的构建与引入为多源地质数据集成、地质知识的转化,以及地质数据的互 *** 作性等提供了技术基础,并在语义层上解决地质异构信息的集成和互 *** 作,从而促进并实现地质相关知识共享、交互和推理(Ma et al,2012)。特别是本体能够为数字基础设施提供语义匹配支持、解决分布式服务组配等问题(Gurnis et al,2011),形成了地球科学中若干的本体应用。

12 在地质信息领域中本体相关应用

目前,地质本体主要用于地质图、知识集成及共享。例如,GEON(是2002年由美国自然科学基金委员会信息技术研究项目(NSF Information Technology Research(ITR)program)资助的一个科研项目)工程中的地质本体主要用于地质图中异构概念模式的协调和异构地质图的组配(Lin et al,2008);基于SKOS建立的GTS多语言词典,可以解决在线地质图之间的多语言障碍(Ma et al,2012);通过建立基于词表的地质图检索服务,AuScope克服了在地球科学术语中的语义和语法上的不同(Woodcock et al,2010);Silva等人提出了应用本体实现地质影像的知识标记和解析,如地层形态和沉积结构、岩石视觉特征等(Silva et al,2004)。此外,地质本体被用于解决地质建模中地质语义异构、解析及构建地质知识模型等问题(侯卫生等,2009)。

总体来说,本体大致有两个不同层次的应用:底层应用与顶层应用。底层应用主要包括数据集成与互 *** 作、数据交换两个方面,即从语义上实现异构数据源重用、集成及互 *** 作,并对输入和输出的异构数据源进行校准;顶层应用主要包括服务和知识的集成、共享及互 *** 作等方面。顶层应用则以语义的方式集成各类服务,以获得有效工作流,实现知识的形式化、形式化知识推理及跨领域知识共享方式。

2 广东省地质数据现状分析

广东省国土资源档案馆已完成馆藏及厅矿政管理各类地质资料成果等数据资源的数据格式、数据完备程度等情况的分析整理,并根据地质资料数据集群与管理服务平台建设的要求,制定了地质资料数据集群与管理服务平台的数据库规范,做到统一数学基础、统一数据格式、统一数据分类的要求,提取各类数据的核心图层,建立各类空间数据库。初步建立起广东省国土资源“地质资料数据集群与管理服务平台”的基础核心数据体系。

目前,广东省国土资源档案馆所管理的数据库包括测绘、地质、矿产等多种空间和非空间数据库,具体见表1。

表1 广东省国土资源档案集群服务平台数据库列表

由此可见,目前省级档案馆在各类地质数据库中已积累、管理了大量地质数据,种类繁多、类型和结构也存在多样化,并且在相关业务的处理过程中,又会产生新的衍生数据。如何更好地挖掘地质知识以便更好地为地质服务已成为当务之急。

3 广东省地质数据中心设计

31 架构设计

现有国土“一张图”的基本架构体系中GIS空间数据引擎与基础数据库之间的数据交互是数据驱动的,由于不同数据库的多源异构的特征,这种基于数据驱动的数据交互方式会产生诸如语义冲突、数据挖掘程度低等问题。故此,我们通过依托Ontology在语义集成中的优势,构建了基于Ontology驱动的广东省地质数据中心设计模式(图1)。

图1 广东省地质数据中心设计

该数据中心包括以下几个部分:基础数据层、空间数据交互层、地质大数据处理分析层、数据管理基础平台、数字基础设施支撑体系和标准规范及汇交更新机制。数字基础设施支撑体系是整个数据中心的硬件基础,包括网络设施、服务器、存储设施等。基础数据层是指广东省国土资源档案馆所管理的各类数据。空间数据交互层主要为空间数据的交互查询、更新提供功能,它包括基于数据驱动的交互、GIS空间数据引擎、基于Ontology驱动的数据交互。地质大数据处理分析层是基于Ontology技术的一个地质知识挖掘和服务的中间层,是从结构化的地质数据库中直接提取各类地质概念,建立相应的概念间逻辑关系与语义关系,为多源地质数据语义提取和数据挖掘提供服务。数据管理基础平台为外在的数据录入、管理、分析等交互界面和处理功能,是整个数据中心的外在表现。

标准规范及汇交更新机制是指各类地质数据汇交、更新过程中所必须依据的标准和规范,是整个数据中心运转的制度保障。在各个平台的使用过程以及各部门的业务流转过程中,既需要从档案馆地质资料集群平台提取地质数据,同时会产生新的地质数据需要汇交到地质资料集群平台,并更新地质资料集群平台。在这样一个过程中,数据汇交、更新过程的标准和规范是必要的。

数据中心的底层是广东省国土资源档案馆管理的基础数据库,在数据库与空间数据引擎之间通过两种途径来实现数据交互:一是传统的基于数据驱动的数据交互,这类交互通过SQL语句或GSQL语句实现对空间和属性数据的获取、更新管理;二是通过Ontology来实现数据的查询,利用Ontology构建工具,基础数据库中的每一个数据库建立一个相应的Ontology,理顺数据库中各实体及相互之间的语义关系、以及所涉及的概念体系,从而为深度数据查询提供基础。两者通过GIS空间数据引擎共同构成了数据基础管理平台与基础数据库之间的沟通桥梁。

该技术架构的设计注重地质数据语义集成与分析,并且可以在不改变业务应用的前提下实现。其中地质本体的构建原则采用侯卫生等人(2013)提出的基于地质空间数据库的OWL本体自动构建方法,可实现一次构建,随时更新,永久保存的特性。

32 架构优势

基于Ontology驱动的数据交互和传统的基于数据驱动的数据交互相比具有明显的优势。基于Ontology驱动的数据交互优势主要包括两点:

一是解决语义冲突产生的问题,使查询结果更精确。基础数据库包括空间数据库、非空间数据库,它们来源广泛、结构各异、尺度不同、精度不一,对同一地质现象在不同数据库中的描述肯定不尽相同。如小比例尺空间数据库中对某区域岩性统一描述为“砂岩”,而大比例尺空间数据库中会细分为“含砾砂岩”、“含砂砾岩”、“泥质砂岩”、“砂质泥岩”、“含泥砂岩”等岩性描述。如果忽略了不同数据库间语义上的联系或冲突,单纯使用基于数据库的查询方法可能得到不准确的查询结果。而建立了Ontology之后,通过基于Ontology的查询就可以很好地规避这个问题。

二是建立了数据库之间的联系,深化查询结果。当前各个基础数据库之间是相互独立的,不同数据库之间的关联不紧密或者没有关联,在进行数据挖掘时很难挖掘出足够的信息。例如,对某区域的岩性“地质空间数据库”描述为“砂岩”,而“水文地质数据库”称为“砂质岩”,那么在基于数据库查询“砂岩”时,由于没有查到“砂质岩”的结果,这次查询就无法得到“水文地质数据库”中的信息。而Ontology建立了“砂岩”和“砂质岩”两个语义之间的联系,那么这两个数据库的数据都能被挖掘出来。

总之,依托结构化数据构建Ontolgy可以从中提取出各类概念及概念间的语义关系,可以更好地为地质知识挖掘服务。

4 小结

本文根据广东省地质数据管理现状,提出了基于Ontology驱动的广东省地质资料集群化平台的数据中心设计模式。与传统的基于数据驱动的模式相比,该数据中心设计模式可以解决空间数据查询时的语义冲突以及数据挖掘程度不够等问题,为今后拓展地质资料的集群化产业化应用领域,适应大数据的发展,以及更好地为地质数据知识挖掘和服务提供了良好的基础和数据保障。

参考文献

[1]Guarino,NUnderstanding,building and using ontologies[J]International Journal of Human–Computer Studies,1997,46(2~3):293~310

[2]Gurnis,M,Flesch,L,Okaya,D,et alEarthScope Cyber infrastructure Subcommittee(ECISC)Preliminary Strategic Plan for EarthScope Cyberinfrastructure[R]2011

[3]Lin,K,Bertram,LGEON:Ontology-Enabled Map Integration24th Annual ESRI International User Conference,[C]2008

[4]Ma,X,Carranza,EJM,Wu,C,et alOntology-aided annotation,visualization,and generalization of geological time-scale information from online geological map services[J]Computers & Geosciences,2012,40(3):107~119

[5]Silva OPda,Freitascmds,Abel MInteractive visualization of well data for supporting geological reservoir modeling2004

[6]Woodcock,R,Simons,B,Duclaux,G,et alAuScope’s use of standards to deliver earth resource dataGeophysical Research Abstracts 12,EGU2010-1556,EGU General Assembly,2010

[7]邓鸿志,等Ontology研究综述[J]北京大学学报(自然科学版),2009,38(5):730~738

[8]侯卫生,刘修国,吴信才,等面向三维地质建模的领域本体逻辑结构与构建方法[J]地理与地理信息科学,2009,25(1):27~31

[9]赵铭地质档案信息开发利用新趋势[J]档案管理2012(5):87

微生物多样性测序(扩增子测序)是基于二代高通量测序对16S/18S/ITS等序列进行测序。可以同时检测样本中的优势物种、稀有物种及一些未知物种的检测,获得样本的微生物群落组成以及相对丰度。

相信关注我们的小伙伴对此并不陌生。

这次我们整合了大家平时会遇到的一些问题,在原有的基础上对报告进一步完善。

报 告 全 新 升 级 

想知道总体结果?先看这

——项目概述

重要指数 :★★★★★

这部分内容必看。

主要是汇总信息,包括样本数据量,测序质量,重复性效果评估,分组信息,组间差异评估,代谢途径上差异,功能预测等。

这里会给出本项目中的一些重要提示,帮你从众多的报告信息中获取关键的部分。

实验、分析流程怎么写?

——技术介绍

重要指数 :★★★

技术介绍这部分内容,就是说我们基于是怎么样一个测序平台、什么方法来获得的最后的数据。

如果你担心  

这么直观的报告,

会不会不够详细?

小问号里有宝藏!

如上图,点击实验流程旁边的小问号,d出的文件夹里就有详细的英文版方法介绍。

数据质量怎么样  

——OTU/ASVs结果统计 

重要指数 :★★★★

这部分内容主要是数据统计的图表:

Raw-tags:  样本的原始序列数据

Singleton: 无完全匹配的单条序列数量

tagsmatchedASVs: 比对到最终ASVs的序列数据

ASVs:以及ASVs的种类个数

参数自由选择,灵活生成

——物种注释及构成

重要指数 :★★★★

经过SILVA138数据库的注释,得到ASVs的物种注释结果。

这一部分可以看到每个样本的物种构成比例,Taxonomic Level 可以选择Level1 ~ Level7 界门纲目科属种,不同分类水平下的物种构成。

这里选择level2就是“界”层级(可根据需求自选),另外比如选一个groups分组,如下:

柱状图太宽?太窄?

一拉即可调整!

同时给出了各分类水平的相关原始数据,可以到对应路径进行查看。

表格任意排序,3D动图自由切换

——多样性分布结果

重要指数 :★★★★

α多样性

评估单个样本内的物种构成的丰度情况

使用Qiime2进行α多样性分析,分别计算获得

以上就是关于基于Ontology驱动的广东省地质数据中心设计全部的内容,包括:基于Ontology驱动的广东省地质数据中心设计、扩增子测序和高通量测序区别、等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9375618.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-27
下一篇 2023-04-27

发表评论

登录后才能评论

评论列表(0条)

保存