基础数据库

基础数据库,第1张

(一)数据内容

基础数据库包括系统运行前所采集到的所有支撑数据,数据的具体内容在数据分类与数据源章节中已描述,概括可分为以下几类。

(1)遥感影像数据:包括历史图像数据,以及按照一定监测周期更新的遥感图像数据。

(2)数字线划图数据:矢量数据(现状专题图和历史专题图数据)、栅格数据、元数据等。入库前数据以ArcInfoCoverage格式分幅或整体存储,采用地理坐标系统。

(3)数字栅格图数据:包括1∶5万和1∶10万基础地理图形数据的扫描栅格数据。

(4)数字高程模型数据:塔里木河干流河道1∶1万和“四源一干”区域1∶10万数字高程模型。

(5)多媒体数据:考察照片、录像、录音和虚拟演示成果等多媒体资料。

(6)属性数据:社会经济与水资源数据、水利工程数据、生态环境数据等。

(二)数据存储结构

1.栅格数据

栅格数据包括遥感影像、数字栅格图、数字正射影像图、数字高程模型等,这些数据的存储结构基本类似,因此可进行统一设计。遥感图像数据库与普通的图像数据库在存储上有些差别,遥感图像作为传感器对地理、空间环境在不同条件下的测量结果(如光谱辐射特性、微波辐射特性),必须结合同时得到的几个图像才可以认为是对环境在一定的时间条件下的完整的描述,也即是说,可能需要一个图像集合才能构成一个图像的完整的概念,并使之与语义信息产生联系(罗睿等,2000)。因此,遥感图像数据存储结构模型必须能够描述几个图像(波段)之间的逻辑关系。利用ArcSDE进行数据入库时,系统可自动建立各图像(波段)之间的关系,并按一定规则存储在数据库系统中。

对栅格数据在后台将采用Oracle数据库管理系统进行存储。Oracle系统可直接存储影像信息,并具有较强的数据管理能力,可以实现栅格数据信息的快速检索和提取。数据引擎采用ArcSDE,实现各类影像数据的入库。数据存储的关键是建立图幅索引,本系统数据的存储按图幅号、图名、采集时间等内容建立索引。

栅格数据依据图形属性一体化的存储思想,采用大二进制格式直接存储数据,这种方式的存储可实现内容的快速检索查询,按索引表检索出相关项后可直接打开栅格数据,提高栅格数据的管理效率。

2.矢量数据

本系统采用图属一体化思想即将空间数据和属性数据合二为一,全部存在一个记录集中的思想存储空间数据,是目前GIS数据非常流行的存储方法。考虑到数据的具体情况,决定采用数据库存储空间数据和属性数据,部分具有少量、定型几何信息的地理要素如水文测站、河流、湖泊等,采用图属一体化思想存储其信息,而与其有关联关系的大量、多边化的属性信息如水文信息,则存储在属性数据表中,利用唯一标识符信息建立两表的关联。

针对本系统空间数据的特点,系统按照“数据库—子库—专题(基础数据)—层—要素—属性”的层次框架来构筑空间数据库,按照统一的地理坐标系统来存储空间数据,以实现对地理实体/专题要素进行分层叠加显示。

3.多媒体数据

Oracle系统可直接存储图片和视频信息,并具有较强的数据管理能力,可以实现多媒体信息的快速检索和提取。多媒体数据存储的关键是建立索引表,本系统多媒体数据的存储按类型、时间、内容等项目建立索引,直接存储于Oracle数据库中。

多媒体数据存储时,可以将多媒体内容与索引表结构合为一体,采用大二进制格式直接存储,这种存储方式可实现内容的快速检索和查询,按索引表检索出相关项后可直接打开多媒体内容,而且多媒体数据库也便于维护管理。

(三)空间索引设计

1.矢量空间索引

确定合适的格网级数、单元大小是建立空间格网索引的关键。格网太大,在一个格网内有多个空间实体,查询检索的准确度就低。格网太小,则索引数据量成倍增长和冗余,检索的速度和效率低。每一个数据层可采用不同大小、不同级别的空间索引格网单元,但每层级数最多不能超过三级。索引方式设置遵循以下基本原则:

(1)对于简单要素的数据层,尽可能选择单级索引格网,减少RDBMS搜索格网单元索引的级数,缩短空间索引搜索的过程

(2)如果数据层中的要素封装边界大小变化比较大,应选择2或3级索引格网

(3)如果用户经常对图层执行相同的查询,最佳格网的大小应是平均查询范围的1.5倍

(4)格网的大小不能小于要素封装边界的平均大小。为了减少每个格网单元有多个要素封装边界的可能性,格网单元的大小应取要素封装边界平均大小的3倍

(5)格网单元的大小不是一个确定性的问题,需要多次尝试和努力才会得到好的结果。有一些确定格网初始值的原则,用它们可以进一步确定最佳的格网大小。

SDE(Spatial Data Engine,即空间数据引擎),从空间管理的角度看,是一个连续的空间数据模型,可将地理特征的空间数据和属性数据统一集成在关系型数据库管理系统中。关系型数据库系统支持对海量数据的存储,从而也可实现对空间数据的海量存储。空间数据可通过层来进行数据的划分,将具有共同属性的一类要素放到一层中,每个数据库记录对应一层中一个实际要素,这样避免了检索整个数据表,减少了检索的数据记录数量,从而减少磁盘输入/输出的 *** 作,加快了对空间数据查询的速度。

ArcSDE采用格网索引方式,将空间区域划分成合适大小的正方形格网,记录每一个格网内所包含的空间实体(对象),以及每一个实体的封装边界范围,即包围空间实体的左下角和右上角坐标。当用户进行空间查询时,首先计算出用户查询对象所在格网,然后通过格网号,就可以快速检索到所需的空间实体。因此确定合适的格网级数、单元大小是建立空间格网索引的关键,太大或太小均不合适,这就需要进行多次尝试,确定合适的网格大小,以保证各单元能均匀落在网格内。利用ArcSDE的索引表创建功能,记录每一网格单元的实体分布情况,形成图层空间索引表。根据空间索引表,ArcSDE实现了对空间数据的快速查询。

2.栅格数据空间索引

栅格数据的空间索引通过建立多级金字塔结构来实现。以高分辨率栅格数据为底层,逐级抽取数据,建立不同分辨率的数据金字塔结构,逐级形成较低分辨率的栅格数据。该方法通常会增加20%左右的存储空间,但却可以提高栅格数据的显示速度。在数据库查询检索时,调用合适级别的栅格数据,可提高浏览和显示速度。

(四)入库数据校验

入库数据的质量关系到系统评价分析结果的准确性。数据在生产中就需要严格进行质量控制。依据数据生产流程,将数据质量控制分成生产过程控制和结果控制。生产过程控制包括数据生产前期的质量控制、数据生产过程中的实时质量控制,结果质量控制为数据生产完成后的质量控制(裴亚波等,2003)。对入库数据的校验主要是进行数据生产完成后的质量控制和检查。

1.规范化检查

(1)代码规范化:所有地理代码尽量采用国家标准和行业标准,例如,行政代码采用中华人民共和国行政区划代码国标。

(2)数据格式规范化:所有数据采用标准交换数据格式,例如,矢量数据采用标准输出Coverage格式和E00格式。

(3)属性数据和关系数据字段规范化:所有属性数据和关系数据提前分门别类地设计字段的内容、长短和格式, *** 作过程中严格执行。

(4)坐标系统规范化:本系统所有与空间有关的数据采用统一的空间坐标系统,即地理坐标系统。

(5)精度规范化:所有数据按照数据精度与质量控制中所要求的精度进行采集和处理。

(6)命名规范化:所有数据按照命名要求统一命名,便于系统的查询。

(7)元数据规范化:依照元数据标准要求,进行元数据检查。

2.质量控制

数据质量是GIS成败的关键。对于关系型数据库设计,只要能保证表的实体完整性和参照完整性,并使之符合关系数据库的三个范式即可。对于空间数据库设计,则不仅要考虑数据采样、数据处理流程、空间配准、投影变换等问题,还应对数据质量做出定量分析。

数据质量一般可以通过以下几个方面来描述(吴芳华等,2001):

(1)准确度(Accuracy):即测量值与真值之间的接近程度,可用误差来衡量

(2)精度(Precision):即对现象描述得详细程度

(3)不确定性(Uncertainty):指某现象不能精确测得,当真值不可测或无法知道时,就无法确定误差,因而用不确定性取代误差

(4)相容性(Compatibility):指两个来源不同的数据在同一个应用中使用的难易程度

(5)一致性(Consistency):指对同一现象或同类现象表达的一致程度

(6)完整性(Completeness):指具有同一准确度和精度的数据在类型上和特定空间范围内完整的程度

(7)可得性(Accessibility):指获取或使用数据的容易程度

(8)现势性(Timeliness):指数据反映客观现象目前状况的程度。

塔里木河流域生态环境动态监测系统的所有数据在数据质量评价后,还需要从数据格式、坐标一致性等方面进行入库质量检验,只有通过质量检验的数据才可以入库。

3.数据检验

空间数据质量检验包括以下步骤:

(1)数据命名是否规范,是否按设计要求命名

(2)数据是否能够正常打开

(3)投影方式是否正确

(4)坐标系统是否正确

(5)改错是否完成,拓扑关系是否建立

(6)属性数据是否正确,包括字段设置是否依据设计进行、是否有空属性记录、是否有属性错误记录等。

关系数据质量检验包括以下步骤:

(1)数据命名是否规范,是否按设计要求命名

(2)数据是否能够正常打开

(3)数据字段是否按设计要求设置

(4)是否有空属性记录

(5)是否有属性错误记录。

属性数据的校验,主要采用以下三种方式:

(1)两次录入校验:对一些相互之间毫无关联的数据,进行两次的录入,编写程序对两次录入的结果进行比较,找出两次录入结果不一样的数据,查看正确值,进行改正。

(2)折线图检验:对一些相互之间有关联的序列数据,如人口统计数据,对这一类数据,编写程序把数据以折线图的形式显示在显示器上,数据的序列一般都有一定规律,如果出现较大的波动,则需对此点的数据进行检查修改。

(3)计算校验:对一些按一定公式计算后所得结果与其他数据有关联的数据,如某些数据的合计等于另一数据,编写程序对这类数据进行计算,计算结果与有关联的数据进行比较,找出结果不一样的数据,查看正确值,进行改正。

图形数据的校验,主要包括以下步骤(陈俊杰等,2005):

(1)图层校验:图形要素的放置图层是唯一的。对于入库的Coverage数据,系统将根据图层代码进行检查,确保图形要素对层入座。

(2)代码检查:图形要素的代码是唯一的。对于入库的Coverage数据,系统将根据入库要素代码与特征表中的代码进行比较,确保入库数据代码存在,杜绝非法代码入库。

(3)类型检查:对入库的数据,检查该要素的类型与特征表中的类型是否一致,确保图形要素对表入座。如点要素、线要素、面要素仅能赋相应的点、线、面代码,且该代码必须与特征表中的数据类型代码相同。

(4)范围检查:根据入库的数据,确定该类要素的大体范围(如X、Y坐标等),在数据入库前,比较入库数据与范围数据的大小,若入库数据在该范围内,则入库,否则给出提示检查信息。

(五)数据入库

1.遥感影像数据

利用空间数据引擎———ArcSDE可实现遥感影像数据在Oracle数据库中的存储和管理,在影像数据进行入库时,应加入相应的索引和影像描述字段。

遥感影像入库步骤:

(1)影像数据预处理:要将塔里木河遥感影像数据库建成一个多分辨率无缝影像数据库系统,客观上要求数据库中的影像数据在几何空间、灰度空间连续一致。因此,在数据采集阶段就需要对影像数据进行预处理,包括图像几何校正、灰度拼接(无缝镶嵌)、正射处理、投影变换等。

几何校正的目的是使校正后的图像重新定位到某种地图投影方式,以适用于各种定位、量测、多源影像的复合及与矢量地图、DTM等的套合显示与处理。几何校正多采用二次多项式算法和图像双线性内插重采样法进行图像校正。将纠正后具有规定地理编码的图像按多边形圈定需要拼接的子区,逐一镶嵌到指定模版,同时进行必要的色彩匹配,使整体图像色调一致,完成图像的几何拼接,再采用金字塔影像数据结构和“从粗到精”的分层控制策略实现逐级拼接。

数字正射影像具有统一的大地坐标系、丰富的信息量和真实的景观表达,易于制作具有“独立于比例尺”的多级金字塔结构影像。可以采用DTM和外方位元素经过数字微分纠正方法,获得数字正射影像,它的基本参数包括原始影像与正射影像的比例尺、采样分辨率等(方涛等,1997)。

投影变换需根据数据库系统定义的标准转换到统一的投影体系下。

(2)影像数据压缩:随着传感器空间分辨率的提高和对遥感信息需求的日益增长,获取的影像数据量成几何级数增大,如此庞大的数据将占用较大的存储空间,给影像的存储和传输带来不便(葛咏等,2000)。目前,系统处理的遥感影像数据已达数百千兆,单个文件的影像数据最大达到了2G,这样的数据量在调用显示时速度很慢,对影像数据进行压缩存储,将大大提高影像访问效率。本系统采用ArcSDE软件提供的无损压缩模式对入库影像进行压缩。

(3)影像导入:遥感影像的入库可通过ArcSDE或入库程序进行导入,并填写相关的索引信息,在入库时对大型的遥感影像数据进行自动分割,分为若干的块(tiles)进行存储。

(4)图像金字塔构建:采用ArcSDE提供的金字塔构建工具在入库时自动生成图像金字塔,用户只需要选择相应的参数设置即可。图像金字塔及其层级图像按分辨率分级存储与管理。最底层的分辨率最高,并且数据量最大,分辨率越低,其数据量越小,这样,不同的分辨率遥感图像形成了塔式结构。采用这种图像金字塔结构建立的遥感影像数据库,便于组织、存储与管理多尺度、多数据源遥感影像数据,实现了跨分辨率的索引与浏览,极大地提高了影像数据的浏览显示速度。

2.数字线划图

对纸图数字化、配准、校正、分层及拼接等处理后,生成标准分幅和拼接存储的数字矢量图,就可以进行图形数据入库。

(1)分幅矢量图形数据、图幅接合表:按图形比例尺、图幅号、制作时间、图层等方式,通过入库程序导入到数据库中,同时导入与该地理信息相对应的属性信息,建立空间信息与属性信息的关联。

(2)拼接矢量图形数据:按图形比例尺、制作时间、图层等方式,通过入库程序导入到数据库中,同时导入与该地理信息相对应的属性信息,建立空间信息与属性信息的关联。

3.栅格数据

对纸图数字化、配准、校正、分层及拼接等处理后,生成标准分幅和整体存储的数字栅格图,然后进行图形数据入库。

(1)分幅栅格图形数据、图幅接合表:按图形比例尺、图幅号、制作时间等方式,通过入库程序导入到数据库中。

(2)整幅栅格图形数据:按比例尺、制作时间等方式,通过入库程序导入到数据库中。

4.数字高程模型

(1)分幅数字高程模型数据、图幅接合表:按图形比例尺、图幅号、制作时间等方式,通过入库程序导入到数据库中。

(2)拼接数字高程模型数据:按比例尺、制作时间等方式通过入库程序导入到数据库中。

5.多媒体数据

多媒体数据入库可根据多媒体数据库内容的需要对入库数据进行预处理,包括音频、视频信息录制剪接、文字编辑、色彩选配等。对多媒体信息的加工处理需要使用特定的工具软件进行编辑。由于音频信息和视频信息数据量巨大,因此,对多媒体数据存储时需采用数据压缩技术,现在的许多商用软件已能够直接存储或播放压缩后的多媒体数据文件,这里主要考虑根据数据显示质量要求选择采用不同的存储格式。图4-2为各类多媒体数据的加工处理流程。

图4-2 多媒体数据加工处理流程图

6.属性数据

将收集的社会经济、水利工程、生态环境等属性资料,进行分析整理,输入计算机,最后经过程序的计算处理,存储到数据库中,具体流程如图4-3所示。

图4-3 属性数据入库流程图

ASP数据库类型DBFDBCMDBExcelSQLServer

数据库是在计算机存储设备上按一定方式,合理组织并存储的相互有关联的数据的集合,是计算机技术和信息检索技术相结合的产物,是电子信息资源的主体,是信息检索系统的核心部分之一。按所提供的信息内容,数据库主要可分为参考数据库和源数据库。

1.参考数据库

主要存储一系列描述性信息内容,指引用户到另一信息源以获得完整的原始信息的一类数据库,主要包括书目数据库和指南数据库。

(1)书目数据库 存储描述如目录、题录、文摘等书目线索的数据库,又称二次文献信息数据库。如各种图书馆目录数据库、题录数据库和文摘数据库等属于此类,它的作用是为用户指出了获取原始信息的线索。

图书馆目录数据库,又称机读目录,其数据内容详细,除描述标题、作者、出版项等书目信息外,还提供用户索取原始信息的馆藏信息。题录、文摘数据库描述的数据内容与印刷型的题录、文摘相似,它提供了论文信息或专利信息等确定的信息来源,供用户检索。

(2)指南数据库 存储描述关于机构、人物、产品、活动等对象的数据库。与其它数据库相比,指南数据库为用户提供的不仅仅是有关信息,还包括各种类型的实体,多采用名称进行检索。如存储生产与经营活动信息的机构名录数据库、存储人物信息的人物传记数据库、存储产品或商品信息的产品指南数据库、存储基金信息的基金数据库等属于此类,它的作用指引用户从其它有关信息源获取更详细的信息。

2.源数据库

主要存储全文、数值、结构式等信息,能直接提供原始信息或具体数据,用户不必再转查其它信息源的数据库。它主要包括全文数据库和数值数据库。

(1)全文数据库 存储原始信息全文或主要部分的一种源数据库。如期刊全文数据库、专利全文数据库、百科全书全文数据库,用户使用某一词汇或短语,便可直接检索出含有该词汇或短语的原始信息的全文。

(2)数值数据库 存储以数值表示信息为主的一种源数据库,和它类似的有文本-数值数据库。与书目数据库比较,数值数据库是对信息进行深加工的产物,可以直接提供所需的数据信息。如各种统计数据库、科学技术数据库等。数值数据库除了一般的检索功能外,还具有准确数据运算功能、数据分析功能、图形处理功能及对检索输出的数据进行排序和重新组织等方面的功能。

4.2.2 数据库结构

1.书目数据库的结构

书目数据库是以文档形式组织一系列数据,这些数据被称为记录,一个记录又包含若干字段。

(1)记录与字段 记录是作为一个单位来处理有关数据的集合,是组成文档的基本数据单位。记录中所包含的若干字段,则是组成记录的基本数据单位。在书目数据库中,一个记录相当于一条题录或文摘,因此,一个记录通常由标题字段、作者字段、来源字段、文摘字段、主题词字段、分类号字段、语种字段等组成。在有些字段中,又包含多个子字段,子字段是字段的下级数据单位。如,主题词字段含有多个主题词。按照字段所代表记录的性质不同,字段通常分为基本字段和辅助字段两类。常见的字段名称及代码见表4-1。

表4-1 字段名称及代码

基本字段

辅助字段

字段名称

字段代码

字段名称

字段代码

标 题

TI

记录号

DN

文 摘

AB

作 者

AU

叙 词

DE

作者单位

CS

标识词

ID

期刊名称

JN

出版年

PY

出版国

CO

语 种

LA

(2)文档 按一定结构组织的相关记录的集合。文档是书目数据库数据组织的基本形式,文档的组织方式与检索系统的硬件和软件功能密切相关。在书目数据库中,文档结构主要分为顺排文档和倒排文档。

1)顺排文档 记录按顺序存放,记录之间的逻辑顺序与物理顺序是一致的,相当于印刷型工具中文摘的排列顺序,是一种线形文档。顺排文档是构成数据库的主体部分,但其主题词等特征的标识呈无序状态,直接检索时,必须以完整的记录作为检索单元,从头至尾查询,检索时间长,实用性较差。

2)倒排文档 将顺排文档中各个记录中含有主题性质的字段(如主题词字段、标题字段、叙词字段等)和非主题性质字段(如作者字段、机构字段、来源字段等)分别提取出来,按某种顺序重新组织得到的一种文档。具有主题性质的倒排档,称基本索引档,非主题性质的倒排档,称辅助索引档。

综上所述,顺排档和倒排档的主要区别是:顺排档以完整的记录为处理和检索单元,是主文档,倒排档以记录中的字段为处理和检索单元,是索引文档。计算机进行检索时,先进入倒排档查找有关信息的存取号,然后再进入顺排档按存取号查找记录。

2.全文数据库的结构

一般的全文数据库结构与书目数据库相似,全文数据库的一个记录就是一个全文文本,记录分成若干字段。其主文档是以顺排形式组织的文本文档,倒排档是对应于记录可检字段的索引文档。

3.数值数据库的结构

数值数据库的结构要综合考虑数据库的内容及检索目的,即,在内容上,数值数据库的主要内容是数值信息,但不排除含有必要的说明性的文本信息,在检索上,便于单项检索和综合检索,还能对数值进行准确数据运算、数据分析、图形处理及对检索输出的数据进行排序和重新组织。数值数据库的数据结构可以是单元式,也可以是表册形式。前者是对原始数据的模拟,后者则是对统计表格的机读模拟。数值数据库通常有多种文档,如顺排挡、倒排挡、索引文档等。顺排挡是由数值数据组成,为主文档,另有相应的索引文档,为便于存取,索引文档采用基本直接存取结构的组织形式。倒排挡也有相应的索引文档,索引文档采取分级组织形式。数值数据库的文档结构,使所有文档都可以用于检索,所有数据都可用来运算,构成了数值数据库的特点。

4.指南数据库的结构

指南数据库的结构兼有书目数据库、全文数据库和数值数据库的特点,有顺排档、倒排档、索引文档和数据字典。一般而言,对涉及主题领域较多,内容综合性较强的大型指南数据库,顺排挡(主文档)可采用多子文档的结构,对单一主题领域和内容较专的,则采用单一主文档和不定长、多字段的记录格式为宜。

全国地质钻孔基本信息数据库数据来自于全国31个省(区、市)的地矿、有色、冶金、煤田、建材、化工、石油、黄金、地震、水利等行业的1103家地质钻孔资料保管单位各类地质勘查工作项目形成的地质钻孔资料,涵盖了1103个保管钻孔资料的地勘单位,有钻探工作量的项目35580个,钻孔总数958102个(除油气、海洋、放射性钻孔外)。其中,有钻孔坐标的770377个,缺失钻孔坐标的187725个(表4.1)。对于钻孔基本信息不完整和坐标未能转换的,将继续开展钻孔基本信息核实与完善工作,把能够修复的钻孔资料补充到钻孔基本信息数据库之中。

表4.1 全国地质钻孔基本信息数据库汇总

续表

数据具体内容包括地质钻孔资料保管单位基本信息、地质工作项目基本信息和地质钻孔基本信息,见表4.2。

表4.2 全国地质钻孔基本信息数据库基本信息一览表

续表


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9962581.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-03
下一篇 2023-05-03

发表评论

登录后才能评论

评论列表(0条)

保存