数据库的概念:
数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后,
数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的应用。
在信息化社会,充分有效地管理和利用各类信息资源,是进行科学研究和决策管理的前提条件。数据库技术是管理信息系统、办公自动化系统、决策支持系统等各类信息系统的核心部分,是进行科学研究和决策管理的重要技术手段。
数据库的定义:
定义1:数据库(Database)是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。
简单来说是本身可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、截取、更新、删除等 *** 作。
在经济管理的日常工作中,常常需要把某些相关的数据放进这样的“仓库”,并根据管理的需要进行相应的处理。
例如,企业或事业单位的人事部门常常要把本单位职工的基本情况(职工号、姓名、年龄、性别、籍贯、工资、简历等)存放在表中,这张表就可以看成是一个数据库。有了这个\"数据仓库\"我们就可以根据需要随时查询某职工的基本情况,也可以查询工资在某个范围内的职工人数等等。这些工作如果都能在计算机上自动进行,那我们的人事管理就可以达到极高的水平。此外,在财务管理、仓库管理、生产管理中也需要建立众多的这种\"数据库\",使其可以利用计算机实现财务、仓库、生产的自动化管理。
定义2:
严格来说,数据库是长期储存在计算机内、有组织的、可共享的数据集合。数据库中的数据指的是以一定的数据模型组织、描述和储存在一起、具有尽可能小的冗余度、较高的数据独立性和易扩展性的特点并可在一定范围内为多个用户共享。
这种数据集合具有如下特点:尽可能不重复,以最优方式为某个特定组织的多种应用服务,其数据结构独立于使用它的应用程序,对数据的增、删、改、查由统一软件进行管理和控制。从发展的历史看,数据库是数据管理的高级阶段,它是由文件管理系统发展起来的。[1][2]
数据库的处理系统:
数据库是一个单位或是一个应用领域的通用数据处理系统,它存储的是属于企业和事业部门、团体和个人的有关数据的集合。数据库中的数据是从全局观点出发建立的,按一定的数据模型进行组织、描述和存储。其结构基于数据间的自然联系,从而可提供一切必要的存取路径,且数据不再针对某一应用,而是面向全组织,具有整体的结构化特征。
数据库中的数据是为众多用户所共享其信息而建立的,已经摆脱了具体程序的限制和制约。不同的用户可以按各自的用法使用数据库中的数据;多个用户可以同时共享数据库中的数据资源,即不同的用户可以同时存取数据库中的同一个数据。数据共享性不仅满足了各用户对信息内容的要求,同时也满足了各用户之间信息通信的要求。
数据库的基本结构:
数据库的基本结构分三个层次,反映了观察数据库的三种不同角度。
以内模式为框架所组成的数据库叫做物理数据库;以概念模式为框架所组成的数据叫概念数据库;以外模式为框架所组成的数据库叫用户数据库。
⑴物理数据层。
它是数据库的最内层,是物理存贮设备上实际存储的数据的集合。这些数据是原始数据,是用户加工的对象,由内部模式描述的指令 *** 作处理的位串、字符和字组成。
⑵概念数据层。
它是数据库的中间一层,是数据库的整体逻辑表示。指出了每个数据的逻辑定义及数据间的逻辑联系,是存贮记录的集合。它所涉及的是数据库所有对象的逻辑关系,而不是它们的物理情况,是数据库管理员概念下的数据库。
⑶用户数据层。
它是用户所看到和使用的数据库,表示了一个或一些特定用户使用的数据集合,即逻辑记录的集合。
数据库不同层次之间的联系是通过映射进行转换的。
数据库的主要特点:
⑴实现数据共享
数据共享包含所有用户可同时存取数据库中的数据,也包括用户可以用各种方式通过接口使用数据库,并提供数据共享。
⑵减少数据的冗余度
同文件系统相比,由于数据库实现了数据共享,从而避免了用户各自建立应用文件。减少了大量重复数据,减少了数据冗余,维护了数据的一致性。
⑶数据的独立性
数据的独立性包括逻辑独立性(数据库中数据库的逻辑结构和应用程序相互独立)和物理独立性(数据物理结构的变化不影响数据的逻辑结构)。
⑷数据实现集中控制
文件管理方式中,数据处于一种分散的状态,不同的用户或同一用户在不同处理中其文件之间毫无关系。利用数据库可对数据进行集中控制和管理,并通过数据模型表示各种数据的组织以及数据间的联系。
⑸数据一致性和可维护性,以确保数据的安全性和可靠性
主要包括:①安全性控制:以防止数据丢失、错误更新和越权使用;②完整性控制:保证数据的正确性、有效性和相容性;③并发控制:使在同一时间周期内,允许对数据实现多路存取,又能防止用户之间的不正常交互作用。
⑹故障恢复
由数据库管理系统提供一套方法,可及时发现故障和修复故障,从而防止数据被破坏。数据库系统能尽快恢复数据库系统运行时出现的故障,可能是物理上或是逻辑上的错误。比如对系统的误 *** 作造成的数据错误等。
数据库的数据种类:
数据库通常分为层次式数据库、网络式数据库和关系式数据库三种。而不同的数据库是按不同的数据结构来联系和组织的。
1数据结构模型
⑴数据结构
所谓数据结构是指数据的组织形式或数据之间的联系。
如果用D表示数据,用R表示数据对象之间存在的关系集合,则将DS=(D,R)称为数据结构。
例如,设有一个电话号码簿,它记录了n个人的名字和相应的电话号码。为了方便地查找某人的电话号码,将人名和号码按字典顺序排列,并在名字的后面跟随着对应的电话号码。这样,若要查找某人的电话号码(假定他的名字的第一个字母是Y),那么只须查找以Y开头的那些名字就可以了。该例中,数据的集合D就是人名和电话号码,它们之间的联系R就是按字典顺序的排列,其相应的数据结构就是DS=(D,R),即一个数组。
⑵数据结构类型
数据结构又分为数据的逻辑结构和数据的物理结构。
数据的逻辑结构是从逻辑的角度(即数据间的联系和组织方式)来观察数据,分析数据,与数据的存储位置无关;数据的物理结构是指数据在计算机中存放的结构,即数据的逻辑结构在计算机中的实现形式,所以物理结构也被称为存储结构。
这里只研究数据的逻辑结构,并将反映和实现数据联系的方法称为数据模型。
比较流行的数据模型有三种,即按图论理论建立的层次结构模型和网状结构模型以及按关系理论建立的关系结构模型。
2层次、网状和关系数据库系统
⑴层次结构模型
层次结构模型实质上是一种有根结点的定向有序树(在数学中\"树\"被定义为一个无回的连通图)。下图是一个高等学校的组织结构图。这个组织结构图像一棵树,校部就是树根(称为根结点),各系、专业、教师、学生等为枝点(称为结点),树根与枝点之间的联系称为边,树根与边之比为1:N,即树根只有一个,树枝有N个。
按照层次模型建立的数据库系统称为层次模型数据库系统。IMS(InformationManagementSystem)是其典型代表。
⑵网状结构模型
按照网状数据结构建立的数据库系统称为网状数据库系统,其典型代表是DBTG(DatabaseTaskGroup)。用数学方法可将网状数据结构转化为层次数据结构。
⑶关系结构模型
关系式数据结构把一些复杂的数据结构归结为简单的二元关系(即二维表格形式)。例如某单位的职工关系就是一个二元关系。
由关系数据结构组成的数据库系统被称为关系数据库系统。
在关系数据库中,对数据的 *** 作几乎全部建立在一个或多个关系表格上,通过对这些关系表格的分类、合并、连接或选取等运算来实现数据的管理。
dBASEⅡ就是这类数据库管理系统的典型代表。对于一个实际的应用问题(如人事管理问题),有时需要多个关系才能实现。用dBASEⅡ建立起来的一个关系称为一个数据库(或称数据库文件),而把对应多个关系建立起来的多个数据库称为数据库系统。dBASEⅡ的另一个重要功能是通过建立命令文件来实现对数据库的使用和管理,对于一个数据库系统相应的命令序列文件,称为该数据库的应用系统。
因此,可以概括地说,一个关系称为一个数据库,若干个数据库可以构成一个数据库系统。数据库系统可以派生出各种不同类型的辅助文件和建立它的应用系统。
数据库的发展简史:
1数据库的技术发展
使用计算机后,随着数据处理量的增长,产生了数据管理技术。数据管理技术的发展与计算机硬件(主要是外部存储器)系统软件及计算机应用的范围有着密切的联系。数据管理技术的发展经历了以下四个阶段:人工管理阶段、文件系统阶段、数据库阶段和高级数据库技术阶段。
2数据管理的诞生
数据库的历史可以追溯到五十年前,那时的数据管理非常简单。通过大量的分类、比较和表格绘制的机器运行数百万穿孔卡片来进行数据的处理,其运行结果在纸上打印出来或者制成新的穿孔卡片。而数据管理就是对所有这些穿孔卡片进行物理的储存和处理。然而,1950年雷明顿兰德公司(RemingtonRandInc)的一种叫做UnivacI的计算机推出了一种一秒钟可以输入数百条记录的磁带驱动器,从而引发了数据管理的革命。1956年IBM生产出第一个磁盘驱动器——theModel305RAMAC。此驱动器有50个盘片,每个盘片直径是2英尺,可以储存5MB的数据。使用磁盘最大的好处是可以随机存取数据,而穿孔卡片和磁带只能顺序存取数据。
1951:Univac系统使用磁带和穿孔卡片作为数据存储。
数据库系统的萌芽出现于二十世纪60年代。当时计算机开始广泛地应用于数据管理,对数据的共享提出了越来越高的要求。传统的文件系统已经不能满足人们的需要,能够统一管理和共享数据的数据库管理系统(DBMS)应运而生。数据模型是数据库系统的核心和基础,各种DBMS软件都是基于某种数据模型的。所以通常也按照数据模型的特点将传统数据库系统分成网状数据库、层次数据库和关系数据库三类。
最早出现的网状DBMS,是美国通用电气公司Bachman等人在1961年开发的IDS(IntegratedDataStore)。1964年通用电气公司(GeneralElectricCo)的CharlesBachman成功地开发出世界上第一个网状DBMS也即第一个数据库管理系统——集成数据存储(IntegratedDataStoreIDS),奠定了网状数据库的基础,并在当时得到了广泛的发行和应用。IDS具有数据模式和日志的特征,但它只能在GE主机上运行,并且数据库只有一个文件,数据库所有的表必须通过手工编码生成。之后,通用电气公司一个客户——BFGoodrichChemical公司最终不得不重写了整个系统,并将重写后的系统命名为集成数据管理系统(IDMS)。
网状数据库模型对于层次和非层次结构的事物都能比较自然的模拟,在关系数据库出现之前网状DBMS要比层次DBMS用得普遍。在数据库发展史上,网状数据库占有重要地位。
层次型DBMS是紧随网络型数据库而出现的,最著名最典型的层次数据库系统是IBM公司在1968年开发的IMS(InformationManagementSystem),一种适合其主机的层次数据库。这是IBM公司研制的最早的大型数据库系统程序产品。从60年代末产生起,如今已经发展到IMSV6,提供群集、N路数据共享、消息队列共享等先进特性的支持。这个具有30年历史的数据库产品在如今的>
1973年Cullinane公司(也就是后来的Cullinet软件公司),开始出售Goodrich公司的IDMS改进版本,并且逐渐成为当时世界上最大的软件公司。
数据库的关系由来:
网状数据库和层次数据库已经很好地解决了数据的集中和共享问题,但是在数据独立性和抽象级别上仍有很大欠缺。用户在对这两种数据库进行存取时,仍然需要明确数据的存储结构,指出存取路径。而后来出现的关系数据库较好地解决了这些问题。
1970年,IBM的研究员EFCodd博士在刊物《CommunicationoftheACM》上发表了一篇名为“ARelationalModelofDataforLargeSharedDataBanks”的论文,提出了关系模型的概念,奠定了关系模型的理论基础。尽管之前在1968年Childs已经提出了面向集合的模型,然而这篇论文被普遍认为是数据库系统历史上具有划时代意义的里程碑。Codd的心愿是为数据库建立一个优美的数据模型。后来Codd又陆续发表多篇文章,论述了范式理论和衡量关系系统的12条标准,用数学理论奠定了关系数据库的基础。关系模型有严格的数学基础,抽象级别比较高,而且简单清晰,便于理解和使用。但是当时也有人认为关系模型是理想化的数据模型,用来实现DBMS是不现实的,尤其担心关系数据库的性能难以接受,更有人视其为当时正在进行中的网状数据库规范化工作的严重威胁。为了促进对问题的理解,1974年ACM牵头组织了一次研讨会,会上开展了一场分别以Codd和Bachman为首的支持和反对关系数据库两派之间的辩论。这次著名的辩论推动了关系数据库的发展,使其最终成为现代数据库产品的主流。
1969年EdgarF“Ted”Codd发明了关系数据库。
1970年关系模型建立之后,IBM公司在SanJose实验室增加了更多的研究人员研究这个项目,这个项目就是著名的SystemR。其目标是论证一个全功能关系DBMS的可行性。该项目结束于1979年,完成了第一个实现SQL的DBMS。然而IBM对IMS的承诺阻止了SystemR的投产,一直到1980年SystemR才作为一个产品正式推向市场。IBM产品化步伐缓慢的三个原因:IBM重视信誉,重视质量,尽量减少故障;IBM是个大公司,官僚体系庞大,IBM内部已经有层次数据库产品,相关人员不积极,甚至反对。
然而同时,1973年加州大学伯克利分校的MichaelStonebraker和EugeneWong利用SystemR已发布的信息开始开发自己的关系数据库系统Ingres。他们开发的Ingres项目最后由Oracle公司、Ingres公司以及硅谷的其他厂商所商品化。后来,SystemR和Ingres系统双双获得ACM的1988年“软件系统奖”。
1976年霍尼韦尔公司(Honeywell)开发了第一个商用关系数据库系统——MulticsRelationalDataStore。关系型数据库系统以关系代数为坚实的理论基础,经过几十年的发展和实际应用,技术越来越成熟和完善。其代表产品有Oracle、IBM公司的DB2、微软公司的MSSQLServer以及Informix、ADABASD等等。
数据库的发展阶段:
数据库发展阶段大致划分为如下的几个阶段:人工管理阶段、文件系统阶段、数据库系统阶段、高级数据库阶段。
人工管理阶段
20世纪50年代中期之前,计算机的软硬件均不完善。硬件存储设备只有磁带、卡片和纸带,软件方面还没有 *** 作系统,当时的计算机主要用于科学计算。这个阶段由于还没有软件系统对数据进行管理,程序员在程序中不仅要规定数据的逻辑结构,还要设计其物理结构,包括存储结构、存取方法、输入输出方式等。当数据的物理组织或存储设备改变时,用户程序就必须重新编制。由于数据的组织面向应用,不同的计算程序之间不能共享数据,使得不同的应用之间存在大量的重复数据,很难维护应用程序之间数据的一致性。
这一阶段的主要特征可归纳为如下几点:
(1)计算机中没有支持数据管理的软件,计算机系统不提供对用户数据的管理功能,应用程序只包含自己要用到的全部数据。用户编制程序,必须全面考虑好相关的数据,包括数据的定义、存储结构以即存取方法等。程序和数据是一个不可分割的整体。数据脱离了程序极具无任何存在的价值,数据无独立性。
(2)数据不能共享。不同的程序均有各自的数据,这些数据对不同的程序通常是不相同的,不可共享;即使不同的程序使用了相同的一组数据,这些数据也不能共享,程序中仍然需要各自加入这组数据,哪个部分都不能省略。基于这种数据的不可共享性,必然导致程序与程序之间存在大量的重复数据,浪费存储空间。
(3)不能单独保存数据。在程序中要规定数据的逻辑结构和物理结构,数据与程序不独立。基于数据与程序是一个整体,数据只为本程序所使用,数据只有与相应的程序一起保存才有价值,否则毫无用处。所以,所有程序的数据不单独保存。数据处理的方式是批处理。
文件系统阶段:
这一阶段的主要标志是计算机中有了专门管理数据库的软件—— *** 作系统(文件管理)。
上世纪50年代中期到60年代中期,由于计算机大容量直接存储设备如硬盘、磁鼓的出现,
推动了软件技术的发展,软件的领域出现了 *** 作系统和高级软件, *** 作系统中的文件系统是专门管理外存的数据管理软件, *** 作系统为用户使用文件提供了友好界面。 *** 作系统的出现标志着数据管理步入一个新的阶段。在文件系统阶段,数据以文件为单位存储在外存,且由 *** 作系统统一管理,文件是 *** 作系统管理的重要资源。
文件系统阶段的数据管理具有一下几个特点:
优点
(1)数据以“文件”形式可长期保存在外部存储器的磁盘上。由于计算机的应用转向信息管理,因此对文件要进行大量的查询、修改和插入等 *** 作。
(2)数据的逻辑结构与物理结构有了区别,程序和数据分离,使数据与程序有了一定的独立性,但比较简单。数据的逻辑结构是指呈现在用户面前的数据结构形式。数据的物理结构是指数据在计算机存储设备上的实际存储结构。程度与数据之间具有“设备独立性”,即程序只需用文件名就可与数据打交道,不必关心数据的物理位置。由 *** 作系统的文件系统提供存取方法(读/写)。
(3)文件组织已多样化。有索引文件、链接文件和直接存取文件等。但文件之间相互独立、缺乏联系。数据之间的联系需要通过程序去构造。
(4)数据不再属于某个特定的程序,可以重复使用,即数据面向应用。但是文件结构的设计仍是基于特定的用途,程序基于特定的物理结构和存取方法,因此程度与数据结构之间的依赖关系并未根本改变。
(5)用户的程序与数据可分别存放在外存储器上,各个应用程序可以共享一组数据,实现了以文件为单位的数据共享文件系统。
(6)对数据的 *** 作以记录为单位。这是由于文件中只存储数据,不存储文件记录的结构描述信息。文件的建立、存取、查询、插入、删除、修改等 *** 作,都要用程序来实现。
(7)数据处理方式有批处理,也有联机实时处理。
缺点
文件系统对计算机数据管理能力的提高虽然起了很大的作用,但随着数据管理规模的扩大,数据量急剧增加,文价系统显露出一些缺陷,问题表现在:
(1)数据文件是为了满足特定业务领域某一部门的专门需要而设计,数据和程序相互依赖,数据缺乏足够的独立性。
(2)数据没有集中管理的机制,其安全性和完整性无法保障,数据维护业务仍然由应用程序来承担;
(3)数据的组织仍然是面向程序,数据与程序的依赖性强,数据的逻辑结构不能方便地修改和扩充,数据逻辑结构的每一点微小改变都会影响到应用程序;而且文件之间的缺乏联系,因而它们不能反映现实世界中事物之间的联系,加上 *** 作系统不负责维护文件之间的联系,信息造成每个应用程序都有相对应的文件。如果文件之间有内容上的联系,那也只能由应用程序去处理,有可能同样的数据在多个文件中重复储存。这两者造成了大量的数据冗余。
(4)对现有数据文件不易扩充,不易移植,难以通过增、删数据项来适应新的应用要求。
数据库系统阶段:
20世纪60年代后期,随着计算机在数据管理领域的普遍应用,人们对数据管理技术提出了更高的要求:希望面向企业或部门,以数据为中心组织数据,减少数据的冗余,提供更高的数据共享能力,同时要求程序和数据具有较高的独立性,当数据的逻辑结构改变时,不涉及数据的物理结构,也不影响应用程序,以降低应用程序研制与维护的费用。数据库技术正是在这样一个应用需求的基础上发展起来的。
概括起来,数据库系统阶段的数据管理具有以下几个特点:
(1)采用数据模型表示复杂的数据结构。数据模型不仅描述数据本身的特征,还要描述数据之间的联系,这种联系通过所有存取路径。通过所有存储路径表示自然的数据联系是数据库与传统文件的根本区别。这样,数据不再面向特定的某个或多个应用,而是面对整个应用系统。如面向企业或部门,以数据为中心组织数据,形成综合性的数据库,为各应用共享。
(2)由于面对整个应用系统使得,数据冗余小,易修改、易扩充,实现了数据贡献。不同的应用程序根据处理要求,从数据库中获取需要的数据,这样就减少了数据的重复存储,也便于增加新的数据结构,便于维护数据的一致性。
(3)对数据进行统一管理和控制,提供了数据的安全性、完整性、以及并发控制。
(4)程序和数据有较高的独立性。数据的逻辑结构与物理结构之间的差别可以很大,用户以简单的逻辑结构 *** 作数据而无须考虑数据的物理结构。
(5)具有良好的用户接口,用户可方便地开发和使用数据库。
从文件系统发展到数据库系统,这在信息领域中具有里程碑的意义。在文件系统阶段,人们在信息处理中关注的中心问题是系统功能的设计,因此程序设计占主导地位;而在数据库方式下,数据开始占据了中心位置,数据的结构设计成为信息系统首先关心的问题,而应用程序则以既定的数据结构为基础进行设计。
数据库发展趋势:
随着信息管理内容的不断扩展,出现了丰富多样的数据模型(层次模型,网状模型,关系模型,面向对象模型,半结构化模型等),新技术也层出不穷(数据流,Web数据管理,数据挖掘等)。每隔几年,国际上一些资深的数据库专家就会聚集一堂,探讨数据库研究现状,存在的问题和未来需要关注的新技术焦点。过去已有的几个类似报告包括:1989年FutureDirectionsinDBMSResearch-TheLagunaBeachParticipants;1990年DatabaseSystems:AchievementsandOpportunities;1991年WHInmon发表的《构建数据仓库》;1995年Database。
常见数据库厂商:
1SQLServer
只能在windows上运行,没有丝毫的开放性, *** 作系统的系统的稳定对数据库是十分重要的。Windows9X系列产品是偏重于桌面应用,NTserver只适合中小型企业。而且wi
一、数据库的来源
数据库的历史可以追溯到五十年前,数据管理非常简单。通过大量的分类、比较和表格绘制的机器运行数百万穿孔卡片来进行数据的处理,其运行结果在纸上打印出来或者制成新的穿孔卡片。而数据管理就是对所有这些穿孔卡片进行物理的储存和处理。然而,1950 年雷明顿兰德公司的一种叫做Univac I 的计算机推出了一种一秒钟可以输入数百条记录的磁带驱动器,从而引发了数据管理的革命。1956 年IBM生产出第一个磁盘驱动器 the Model 305 RAMAC。使用磁盘最大的好处是可以随机存取数据,而穿孔卡片和磁带只能顺序存取数据。
二、数据库的定义
数据库是依照某种数据模型组织起来并存放二级存储器中的数据集合。这种数据集合具有如下特点:尽可能不重复,以最优方式为某个特定组织的多种应用服务,其数据结构独立于使用它的应用程序,对数据的增、删、改、查由统一软件进行管理和控制。
第一节 数据库基本概念
1 数据:描述事物的符号记录,是指用物理符号记录下来的,可以鉴别的信息。
2 数据库:存储数据的仓库,是指长期存储在计算机中,有组织可共享的数据集合。
3 数据库管理系统:是指专门用于建立和管理数据库的软件,介于应用程序和 *** 作系统之间。
数据库管理系统主要功能:
(1)数据定义功能。
(2)数据 *** 纵功能。
(3)数据库的运行管理功能。
(4)数据库的建立和维护。
(5)数据组织、存储和管理功能。
4 数据库系统:一个完整的数据库系统包括 数据库、数据库管理系统以及相关使用工具、应用程序、数据管理员和用户等。
第二节 数据管理技术的发展
1人工管理阶段
20世纪50年代中期以前,基本上都是依靠手工方式来进行。
特点:1 数据不保存 2 应用程序管理数据 3 数据面向应用。
2文件系统阶段
20世纪50年代以后到60年代中期。
特点:数据可以长期保存 可以专门管理,提供了物理数据的独立性。不能在记录或数据项级实现数据的共享,存在大量的数据冗余。
3数据库系统阶段
20世纪0年代后期。出现数据库管理系统。
特点:(1)数据集成(最大成俗共享、且冗余小)。(2)数据共享性高 (3)数据冗余小(4)数据一致性(5)数据独立性高(6)实施统一管理与控制(7)减少应用程序开发与维护的工作量
第三节 数据库系统结构
一、数据库系统的三级模式结构
由模式、外模式、和内模式三级结构重组成。
模式:也为概念模式或者逻辑模式
外模式:也成为子模式或者用户模式
内模式:也成为存储模式。
三级模式结构的两层映像:外模式/模式映像 模式/内模式映像,从而保证了数据库系统中的数据能够具有较高的逻辑独立性和物理独立性。
二、数据库系统的运行与应用结构
1客户/服务器结构 (C/S)2浏览器/服务器结构(B/S)
第四节 数据模型
是现实时间特征的模拟和抽象表达。
一、数据特征与数据模型组成要素
数据模型三要素:数据结构、数据 *** 作、数据约束。
二、数据模型的分类
1概念层数据模型
基本概念:
实体:客观存在并可以相互区别的事物
属性:实体所具有的某种特性
码或键:可以唯一标识实体属性集
域:属性的取值范围
实体型:具有相同属性的实体必然具有共同的特征和性质。
实体集:同型实体的集合
联系:事物内部以及事物之间的关系。
标识方法:1976年提出的实体-关系法(ER图)
2逻辑层数据模型
有 层次模型、网状模型、关系模型、面向对象模型
3物理层数据模型
本人会成体系的把每本书相关知识重点一一总结,供同僚参考。
1、信息>知识>情报
2、现代文献构成四要素:文献信息,文献载体,符号系统,记录方式。
3、文献检索类型
1)按检出结果形式划分:书目检索,全文检索,引文检索。
2)根据检索对象不同:文献检索,数据检索,事实检索。
3)按检索手段:手工检索,计算机检索
4、文献的外表特征(自然标识):标题,作者,来源,卷期,页次,年月,类型,号码,文种等。文献的内容特征(人为标识):主题词,分类号,类目名称,文摘等。指文献论述的主题,即中心内容。
5、文献检索系统类型:按所摘录的文献加工程度,分为:目录型检索系统、文摘型、题录、全文检索系统。
6、文献信息类型
1)按文献信息表现形式:文字,视频,音频,数字。
2)按文献信息出版类型:图书,期刊,政府出版物,科技报告,专利文献,会议文献,学位论文,标准文献,产品样本说明书,技术档案。其中图书、期刊为普通文献,其他为特种文献。
3)按信息的载体形式划分:印刷型,微缩,声像,电子。
4)按文献信息加工程度:一次文献,二次文献,三次文献,零次文献。
一次文献:公开出版的图书,期刊论文,科技报告,会议文献,学位论文,发明专利。
二次文献:目录,文摘,索引。检索一次文献信息的工具。
三次文献:分为综述研究类(动态综述,学科总结,专题述评,进展报告)和参考工具类(年鉴,手册,大全,词典,百科全书,指南),同时兼有文献检索功能。
零次文献:非正式出版物,未公开与社会,如 草稿,私人笔记,会议记录,未发表的名人手记,口头讨论。
7、检索语言类型
1)按所用词语受控程度:
规范语言(受控语言,人工语言):经过人工控制的规范性的词语或符号作为检索标目。如单元词,叙词(主题词),标题词
非规范语言(非受控语言,自然语言)如关键词。
2)按检索语言所表述的信息特征分为
描述文献内容特征的语言:分类语言,代码语言,主题语言(单元词语言,标题词,关键词(非规范语言),叙词)
描述文献外表特征的语言:书名,刊名,篇名,著者,团体著者,引文,代码/序号。
中国生物医学文献数据库(CBM)
1、根据《医学主题词表(MeSH)》 、 《中国中医药学主题词表》 、 《中国图书馆分类法 医学专业分类表》进行主题标引和分类标引。
2、数据库>文档>记录>字段。
3、缺省字段:中文标题、摘要、作者,关键词,主题词,刊名
4、通配词:单字通配(?),任意(词)通配(%)
5、 智能检索:只支持“缺省字段”,且不支持逻辑词组配检索。
6、出处:期刊名+年份;卷,期,页码
7、主题词检索----一种手术治疗一种疾病:
1)、主题词疾病+“外科学”(副)
2)、手术名+“方法”(副)
3)、#1+#2
——一种药物治疗一种疾病:
1)、疾病+“药物疗法”
2)、药物+“治疗应用”
3)、1+2
8、主题检索选择完后,点击“主题检索”即可检索。分类检索选择完后,按“分类检索”
PubMed数据库
1、 是基于英特网的全球免费生物医学文献数据库,生物医学权威数据库
2、 数据库包括:MEDLINE,In processcitations, Publisher-supplied citations 三个部分,期中MEDLINE以indexed forMEDLINE为标识,In process citations以PubMed-in process为标识,Publisher-suppliedcitations以PubMed-as supplied by publisher为标识。
3、基 本 字 段
中文段码名称 英文段码全称 英文段码简称
题目 Title TI
文摘 Abstract AB
作者 Author AU
作者单位 affiliation AD
期刊名称 Journal J N
出版年份 Publishing year PY
语种 Language LA
所有字段 All fields ALL
第一作者 1AU
责任作者 LASTAU
主题词 MH
期刊全称 journal title TA
关键词 text words TW/KW
3、 截词符:“”代表0个或多个字符,再CNKI 维普中也是,CBM为%
4、 自动转换匹配检索顺序:MESH词表,期刊刊名表,短语表,作者索引,逻辑运算符。如果4个表中都找不到,讲自动拆分短语,以单词或词组为单位,分别重复以上过程,检索时各个词之间是AND的逻辑关系。
5、 词组检索时,注意加“”号,否则将拆分为独立单词或词组以逻辑“与”连接。
6、 AND,NOT OR 必须用大写,可在检索词后面加“[TI/AU]”内为字段名称。
Not>and>or
7、 作者检索:著者姓 空格 名字首字母缩写。如果只用姓来检索,必须加上作者字段[AU]
8、 刊名检索:如果刊名中有特殊符号,输入刊名及缩写时要去掉特殊符号。
9、 主题检索:Restrict to MeSH Major Topic 加权检索,提高查准率
Do not include MeSH terms found below this term in the MeSH hierarchy不扩展
10、引文匹配器:PubMed tool ----- Single Citation Matcher
期刊检索:more resources------- Journals in NCBI Databases
中国知识基础设施工程(CNKI)
1、《中国期刊全文数据库》(CJFD)是CNKI源数据库建设的一个子项目,是目前世界上最大的联系动态更新的期刊全文数据库。
2、主题字段为默认,是篇名,关键词,摘要三项综合。
3、有期刊导航功能
4,被引用次数看:引证文献
ScienceDirect (SD)
1、 是业界公认的高质量学术出版物(1823)
2、 在检索专业词汇或短语时,需加“”或{},否则以单词为单位,用逻辑与(and)连接检索
3、 查看期刊影响因子或者ISSN号:点击期刊封面,“aboutthis journal” 影响因子:impact factors
4、 运算符优先顺序:OR,W/n, PRE/n, AND, AND NOT
5、 W/n:两次之间间隔不超过n个词,两此次序不固定,PRE/n词序固定。如flu w/3 drug两种邻近符不能同时使用
6、 作者检索:名的全称或缩写+姓
7、 Author字段,可以出现在不同人名中,要求一个作者,用specificauthor
8、 二次检索:search within results 限定范围内:limit to 或所选范围外:exclude
9、
10、 最新热门25篇文章,直接跳转到结果,引用次数;cited by
11、 检索表达式:页面上方articles found for: 表达式
12,单字通配(?)
中国科技期刊数据库(维普)
1、 按照《中国图书馆分类法分类》(1989)
2、 默认字段:提名或关键词
3、 同义词检索,可以在高级或者传统检索中,但只能用题名,关键词和题名或关键词字段,但传统检索中无表达式,写出关键步骤即可。
4、 运算符“”表示AND,在结果中检索,“+”表示OR,在结果中添加,“-”表示 NOT,在结果中去除
知识是文献的实质内容,载体是文献的外在形式,记录是联系知识和载体的手段
广义上的文献检索实质上包括文献储存和文献检索
目录型检索系统:图书,期刊
题录型检索系统:独立的文章,并只著文献的外部特征
文献检索系统的评价:准确性,及时性,索引系统的完善程度,对信息标引的深度,查全率和查准率
标引深度反映信息内容特征进行描述的细致程度。标引程度是决定检索系统质量的高低的重要因子
查全率(r)=检出的相关信息/检索工具相关信息总量
查准率(P)=检出的相关信息/检出的相关总量
检索语言由检索标目和语法组成,有等同关系,从属关系,相关关系
检索的基本方法有常用法,追溯法,循环法,浏览法
文献检索的基本步骤是分析课题 明确检索需求 选择检索工具和方法 选择检索标识和检索途径 执行检索 检索结果处理及获取原始文献
文献的符号系统是图画,文字,公式,图表,编码,声像和电磁信息
综合性搜索引擎 专题搜索引擎 特殊搜索引擎
独立和元
情报具有保密性,时效性,传递性
文献属于储蓄性的固体载体
CBM数据库简介
数据标引
CBM的全部题录均根据美国国立医学图书馆最新版《医学主题词表》(即MeSH词表)、中国中医研究院中医药信息研究所出版的《中国中医药学主题词表》进行主题标引,以及《中国图书馆分类法 医学专业分类表》进行分类标引。
二、CBM数据库结构及系统运算符
(二)系统运算符
字段(Field): 组成记录的数据项就是字段,反映一篇文献的具体特征。如题名(TI)、著者(AU)、地址(AD)、出处(SO)、主题词(MeSH)、关键词(KW)、特征词(TG)、出版年(PY)、语种(LA)、等。
记录(Record): 是构成数据库的基本信息单元,每条记录都描述了一个原始信息的外表和内容特征。一条记录通常由多个数据项组成,文献型数据库中的一条记录通常代表一篇文献
文档(File): 是数据库中一部分记录的。许多大型数据库往往包含有数以万计的记录,为便利用户检索,常划分为若干文档。
题名 著者关键词 文摘 出处 出版年份
(一)数据库结构
CBM数据库的记录包括30多个可检索数据项
AB 文摘 AD 地址 (第一著者地址)
AU 著者 CN 国内代码 (国内期刊代码)
CL 分类号 CT 特征词 FS 资助类别 MH 主题词
PY 出版年 IS ISSN (国际期刊代码) VI 卷
PT 文献类型 RF 参文数 (参考文献数)
(SO) 出处 (复合字段:TA,PY,VI,IP,PG) TA 期刊名称
TI 中文题目 TW 关键词
1布尔逻辑运算符
A 逻辑“与”(AND )
B 逻辑“或”(OR )
C 逻辑“非”(NOT )
三、CBM数据库检索运算符
(二)系统运算符
布尔逻辑运算符的优先顺序依次为()>NOT>AND>OR,
2通配符:(1)单字通配符?:替代一个字符。如“门?脉”,可检出:门静脉、门动脉等。
注意:?必须为半角状态。
(2)任意通配符%:替代任意个字符。如“肝炎%疫苗”,可检出:肝炎疫苗、肝炎病毒基因疫苗、肝炎减毒活疫苗、肝炎灭活疫苗等。
3强制执行符/短语检索符“”
检索词做为短语或含有特殊符号“-”、“(”等,用英文半角双引号标识检索词,如: “1,25-(OH)2D3”
四、CBM检索方法
1、基本检索2、主题检索3、分类检索4、期刊检索5、作者检索6、限定检索
1、基本检索
缺点:检索误差大,查准率、查全率不高
2、主题检索
主题词(subjectheadings)亦称叙词(descriptor)
是指能代表文献主题内容实质的、经过严格规范化处理的专业名词术语。
规范化:由权威机构将不同表达方法的同义词强制用一个词来表达。MESH词表、汉语主题词表。
主题检索:是基于文献内容的主题概念进行检索,有利于查全率和查准率。
优点:
利于查全和查准
便于扩大或缩小检索范围(扩展vs不扩展、加权 vs 不加权)
便于限定文献的主要概念及各个方面
(组配一个或多个副主题词)
缺点:
非专业人员难以掌握主题词的标引
3、分类检索
分类检索: 是指按学科或专业去收集文献,采取的是族性检索方式,如果对某一课题做比较全面的文献收集和积累或已经知道所需文献的学科分类体系,就可以从分类途径进行查找
按照《中国图书馆分类法 医学专业分类表》的分类号和分类名进行检索
5、作者检索
可检索出数据库中收录的某一作者发表的所有文献。如果同时标记第一著者选项,则检索结果均为第一作者的文献。
6、限定检索
限定检索:是把年代、文献类型、研究对象等常用的限定条件整合到一个对话框,方便检索
五、检索结果显示和保存
显示结果:共有三种格式:
系统默认为题录格式,显示:标题、作者、作者单位、出处。
文摘格式显示:标题、作者、作者单位、文摘、出处、关键词、主题词、特征词。
详细格式:显示全部字段。在文摘格式基础上增加了参考文献、资助类别等。
产品可追溯体系:
通过该体系可以对成品的最小包装单位、产品单位反向查找生产、加工。仓储、运输的等信息
通过该体系反查有问题的环节,可以有效改善企业次品率、低效环节、库存分布,综合通告企业管理运营效率。
通过该体系可以防伪、防窜货,对假货和窜货的追查速度快、成本低。
可追溯体系需要录入:
浅追溯: 人工录入原料、生产、仓储、物流等环节的详细信息,录入成本高,人为影响大
中度追溯:企业可以通过ERP协同、传感器录入,大量减少企业人员录入信息量,提高信息出错率,减小人工涉及环节
深度追溯:基于物联网的追溯系统。含传感器网络、检测机构对接、ERP对接,整体协同,全流程精细追溯(信息量大而全)
可以参考追溯吧里乔路飞科技的方案
摘 要文章从数据库的结构、内容及应用功能等方面浅述了农村土地调查数据库的建设,并对其在县级国土资源管理中的应用及维护管理进行了探讨。关健词农村土地调查;数据库;建设;应用;维护管理
1 引言
农村土地调查数据库综合了我国目前土地利用现状管理的各种实际应用需求,涵盖了土地利用数据库管理、土地利用变更管理、查询统计、报表管理、历史数据管理、图件管理、系统管理等一系列的业务,系统功能强大、使用简单、稳定可靠,具有兼容性、规范化、可扩展性、可 *** 作性、数据的共享应用、数据的一体化管理、影像的高度压缩和快速还原显示等显著特点。建设和维护好县级农村土地调查数据库为各级国土资源部门的土地利用规划修编、土地资源评价、建设用地审批等提供快速、高效、准确、直观地服务。
2 数据库建设
21 数据库结构
农村土地调查数据库由主体数据库和元数据库两部分构成。其中主体数据库由空间数据库和非空间数据库组成;元数据库则由矢量数据元数据、DOM元数据、DEM元数据和其他元数据组成。县级农村土地调查数据库逻辑结构如图1所示。
图1 农村土地调查数据库逻辑结构图
22 数据库内容
农村土地调查数据库主要存储矢量、栅格、统计表格、报告文本、扫描文件等数据,具体内容有:1)测量控制点、行政区、行政区界线、等高线、高程注记点、坡度图等基础地理信息数据;2)地类图斑、线状地物、零星地物、地类界线等土地利用数据;3)宗地、界址线、界址点等土地权属数据;4)基本农田保护片、基本农田保护块等基本农田数据;5)DOM、DEM、DRG和其他栅格数据;6)矢量数据元数据、DOM元数据、DEM元数据等元数据;7)其他数据。除此之外,建库单位还可根据具体需要,依照《土地利用数据库标准》要求进行数据库的结构设计,对属性数据结构表等内容进行扩充。
23 数据库应用功能
农村土地调查数据库应用功能有:信息查询功能、专题图制作、统计汇总、土地利用变化分析、基本农田分析、日常更新与年度变更、历史数据管理等功能。可完成自定义查询、组合查询等多种查询功能,实现日常土地管理有关图件的快速查询及图属互查;不同专题图的制作功能可实现基本农田分布图、耕地坡度分级图等多种专题图制作,并能生成规范所要求的统计汇总表,具有表格的统计、汇总、查询、编辑、打印输出等功能;能对不同区域、不同时间段的基本农田保护区的用地结构和占用基本农田情况进行土地利用结构、土地利用动态分析;具有农村土地调查数据日常更新,年度变更数据批量处理等功能,并生成年度变更上报数据;可完成图形与属性历史信息的存储、查询和追溯等。
3 数据库在县级国土资源管理中的应用
农村土地调查数据库体现了各行业用地的权属、结构、数量和分布,是政府各相关部门提高管理水平、提升办事效率、进行科学决策的重要依据和参考。其在国土资源管理中的应用,主要体现在以下几个方面。
31 为新一轮土地利用总体规划修编提供依据
土地利用总体规划是在一定区域内,根据国家社会经济可持续发展的要求和当地自然、经济、社会条件,对土地的开发、利用、治理、保护在空间上、时间上所作的总体安排和布局,是国家实行土地用途管制的基础,属于宏观土地利用规划,是各级政府依法组织对辖区内全部土地的利用以及土地开发、整治、保护所作的综合部署和统筹安排。随着“十二五”规划的实施和新一轮产业结构的调整,土地资源的供需矛盾将更为明显,这就需要进行新一轮的土地利用总体规划修编,实现国家对土地的宏观调控和用途管制。土地利用总体规划是否科学、合理将直接影响到“十二五”规划的目标能否顺利实现,而二次土地调查建立的农村土地调查数据库中准确、翔实的土地数据将为新一轮土地利用总体规划修编的科学性和可 *** 作性提供保障。新一轮的土地利用总体规划修编以农村土地调查数据库中的地类为依据,通过对辖区内的农用地、建设用地、未利用地和基本农田等各种图斑的地类、质量、面积和分布等进行分析,合理制定农业与非农业之间的配置以及农业与非农业内部的配置,从而达到严格限制农用地转为建设用地,切实有效保护耕地和实现不同产业之间合理配置的目的,力求辖区内经济的长远发展。
32 为年度土地变更调查提供基础数据库
年度土地变更调查是在第2 次全国土地调查基础上,全面查清年度土地利用现状和变化状况,满足国土资源日常管理的需要,为各级政府和相关部门提供准确可靠的土地基础数据和图件等资料,是国土部门对国土资源进行实时、科学、有效管理的一项重要措施。年度土地变更调查数据库的建立以二次土地调查数据库为基础,以前后两个年度的遥感影像和年度土地利用动态遥感监测内业提取的变化图斑为依据,通过外业实地核实调查,确定图斑实地的地类、位置和面积;根据城市建设用地审批资料,确定建设用地的类型;根据土地开发、整理和复垦资料,确定新增耕地来源类型等属性信息,内业再利用土地变更调查软件按要求逐图斑和线状地物进行变更,建立新的土地调查数据库,提取年度土地利用变化信息,汇总输出各种土地利用变更汇总表格和图件,从而可以掌握年度土地利用变更情况及各种地类之间的流向变化信息。
33 为土地开发整理复垦项目立项提供科学依据
土地开发整理复垦是实现耕地总量动态平衡和占补平衡的重要手段,是保障国家粮食安全、保障建设用地需求,促进经济社会可持续发展的重要措施。利用第2 次全国土地调查成果形成的农村土地调查数据库作为土地开发整理复垦立项的科学依据,为确保耕地占补平衡奠定坚实基础。
土地开发整理复垦项目的选址及开发整理复垦前后的动态监测是保证开发有效耕地的重要条件。在土地开发整理复垦项目选址时,可根据农村土地调查数据库中的土地利用数据、遥感影像数据、基本农田数据和土地权属数据,方便快捷地对所选地块的地类、面积、坡度及地块内的道路、河流、水库的分布和周边农用地、建设用地的分布情况进行对比分析,从而确定土地开发整理复垦项目的具体位置。如进行土地开发时,要根据周边的水域条件考虑开发后的耕地是否能进行正常的灌溉,从而保证粮食产量; 根据周边居民点和道路的分布情况考虑开发后的耕地是否方便人们耕种; 根据周边基本农田的分布情况,开发后的耕地是否与基本农田连片,考虑开发后的耕地可否补划为基本农田,从而实现对耕地的有效保护。进行土地整理时,可根据地块内的线状地物和图斑的田坎系数( 即坡度) 计算出整理前耕地的面积,再根据计划整理后耕地的田坎系数计算出整理后的耕地面积,从而计算出耕地净增加的数量,根据这些计算结果,分析所产生的效益,考虑是否选择在此地块进行土地整理项目。
以上就是关于函数依赖和范式是如何被逐渐认识和发展起来的全部的内容,包括:函数依赖和范式是如何被逐渐认识和发展起来的、数据库的发展简史、数据库名词解释等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)