维度模型是数据仓库领域大师Ralph Kimball 所倡导,以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能。
维度建模是 数据仓库/商业智能 项目成功的关键,为什么这么说,因为不管我们的数据量从GB到TG还是到PB,虽然数据量越来越大,但是数据展现要获得成功,就必须建立在简单性的基础之上,而维度建模就是时刻考虑如何能够提供简单性,以业务为驱动,以用户理解性和查询性能为目标。
维度建模:维度建模是专门应用于分析型数据库、数据仓库、数据市集建模的方法。数据市集可以理解为一种“小型的数据仓库” 维度建模指导我们在数据仓库中如何建表
维度建模分为两种表:事实表和维度表
事实表:必然存在的一些数据,像采集的日志文件,订单表,都可以作为事实表
特征:是一堆主键的集合,每个主键对应维度表中的一条记录,客观存在的,根据主题确定出需要使用的数据
维度表:维度就是所分析的数据的一个量,维度表就是以合适的角度来创建的表,分析问题的一个角度:时间、地域、终端、用户等角度
维度建模的三种模式
星形模式:以事实表为中心,所有的维度表直接连在事实表上,最简单最常用的一种
雪花模式:雪花模式的维度表可以拥有其他的维度表,这种表不易维护
星座模型:基于多张事实表,而且共享维度信息,即事实表之间可以共享某些维度表
mysql数据库表间的关系图可以通过navicat查看:
第一步:下载navicat打开;
第二步:点击navicat界面最右下角标注的按钮即可查看关系图。
最新的MySQLWorkbench已经完全包含了数据库建模与设计、数据库SQL开发和数据库管理与维护等功能。
Mysql数据库-----表
shqihoo2018-04-0708:20
1、定义:表(table)是数据库最基本的组成单元,数据库是用来存储数据的,数据库中有很多表,每一个表都是一个独立的单元,表也是一个结构化的文件,由行和列组成,行称为数据或记录,列称为字段,字段又包含:字段名称、字段类型、长度、约束。
2、创建表
(1)、语法格式:createtable表名称(字段名类型(长度)约束);
(2)、MySQL常用数据类型
VARCHAR:可变长度字符串(VARCHAR(3)表示存储的数据长度丌能超过3个字符长度)
CHAR:定长字符串(CHAR(3)表示存储的数据长度丌能超过3个字符长度)
INT:整数型(INT(3)表示最大可以存储999)
BIGINT:长整型(对应java程序中的long类型)
FLOAT:浮点型单精度(FLOAT(7,2)表示7个有效数字,2个有效小数位)
DOUBLE:浮点型双精度(DOUBLE(7,2)表示7个有效数字,2个有效小数位)
DATE:日期类型(实际开发中,常用字符串代替日期类型)
BLOB:二进制大对象BinaryLargeObject(专门存储、视频、声音等数据)
CLOB:字符型大对象CharacterLargeObject(可存储超大文本,可存储4G字符串)
VARCHAR与CHAR对比:
都是字符串
VARCHAR比较智能,可以根据实际的数据长度分配空间,比较节省空间;但在分配的时候需要相关判断,效率低。
CHAR不需要劢态分配空间,所以执行效率高,但是可能会导致空间浪费
若字段中的数据不具备伸缩性,建议采用CHAR类型存储
若字段中的数据具备很强的伸缩性,建议采用VARCHAR类型存储
大致的讲主要是根据用户的需求,然后设计数据库的E-R模型,然后将E-R模型图转换为各种表,并对其进行数据库设计范式(范式因不同书籍有不同)的审核,然后进行数据库的实施,然后运行维护。
一句话来讲就是将用户的需求变成带有各种关系的表,以及其它的数据库结构,然后供编程使用
具体如下:
按照规范设计的方法,考虑数据库及其应用系统开发全过程,将数据库设计分为以下六个阶段
(1)需求分析。
(2)概念设计。
(3)逻辑设计。
(4)物理设计。
(5)数据库实施。
(6)数据库运行和维护。
5.1.1 需求分析阶段
进行数据库设计首先必须准确了解与分析用户需求,包括数据与处理需求。需求分析是整个设计过程的基础,是最困难、最耗时的一步。作为“地基”的需求分析是否做得充分与准确,决定了在其上构建“数据库大厦”的速度与质量。需求分析做得不好,可能会导致整个数据库重新设计,因此,务必引起高度重视。
5.1.2 概念模型设计阶段
在概念设计阶段,设计人员仅从用户角度看待数据及其处理要求和约束,产生一个反映用户观点的概念模式,也称为“组织模式”。概念模式能充分反映现实世界中实体间的联系,又是各种基本数据模型的共同基础,易于向关系模型转换。这样做有以下好处:
(1)数据库设计各阶段的任务相对单一化,设计复杂程度得到降低,便于组织管理。
(2)概念模式不受特定DBMS的限制,也独立于存储安排,因而比逻辑设计得到的模式更为稳定。
(3)概念模式不含具体的DBMS所附加的技术细节,更容易为用户所理解,因而能准确地反映用户的信息需求。
概念模型设计是整个数据库设计的关键,它通过对用户需求进行综合、归纳与抽象,形成一个独立于具体DBMS的概念模型。如采用基于E-R模型的数据库设计方法,该阶段即将所设计的对象抽象出E-R模型;如采用用户视图法,则应设计出不同的用户视图。
5.1.3 逻辑模型设计阶段
逻辑模型设计阶段的任务是将概念模型设计阶段得到的基本E-R图,转换为与选用的DBMS产品所支持的数据模型相符合的逻辑结构。如采用基于E-R模型的数据库设计方法,该阶段就是将所设计的E-R模型转换为某个DBMS所支持的数据模型;如采用用户视图法,则应进行表的规范化,列出所有的关键字以及用数据结构图描述表集合中的约束与联系,汇总各用户视图的设计结果,将所有的用户视图合成一个复杂的数据库系统。
5.1.4 数据库物理设计阶段
数据库的物理结构主要指数据库的存储记录格式、存储记录安排和存取方法。显然,数据库的物理设计完全依赖于给定的硬件环境和数据库产品。在关系模型系统中,物理设计比较简单一些,因为文件形式是单记录类型文件,仅包含索引机制、空间大小、块的大小等内容。
物理设计可分五步完成,前三步涉及到物理结构设计,后两步涉及到约束和具体的程序设计:
(1)存储记录结构设计:包括记录的组成、数据项的类型、长度,以及逻辑记录到存储记录的映射。
(2) 确定数据存放位置:可以把经常同时被访问的数据组合在一起,“记录聚簇(cluster)”技术能满足这个要求。
(3)存取方法的设计:存取路径分为主存取路径及辅存取路径,前者用于主键检索,后者用于辅助键检索。
(4)完整性和安全性考虑:设计者应在完整性、安全性、有效性和效率方面进行分析,作出权衡。
(5)程序设计:在逻辑数据库结构确定后,应用程序设计就应当随之开始。物理数据独立性的目的是消除由于物理结构的改变而引起对应用程序的修改。当物理独立性未得到保证时,可能会引发对程序的修改。
数据库物理设计是为逻辑数据模型选取一个最适合应用环境的物理结构,包括存储结构和存取方法。
5.1.5 数据库实施阶段
根据逻辑设计和物理设计的结果,在计算机系统上建立起实际数据库结构、装入数据、测试和试运行的过程称为数据库的实施阶段。实施阶段主要有三项工作。
(1)建立实际数据库结构。对描述逻辑设计和物理设计结果的程序即“源模式”,经DBMS编译成目标模式并执行后,便建立了实际的数据库结构。
(2)装入试验数据对应用程序进行调试。试验数据可以是实际数据,也可由手工生成或用随机数发生器生成。应使测试数据尽可能覆盖现实世界的各种情况。
(3)装入实际数据,进入试运行状态。测量系统的性能指标,是否符合设计目标。如果不符,则返回到前面,修改数据库的物理模型设计甚至逻辑模型设计。
5.1.6 数据库运行和维护阶段
数据库系统正式运行,标志着数据库设计与应用开发工作的结束和维护阶段的开始。运行维护阶段的主要任务有四项:
(1)维护数据库的安全性与完整性:检查系统安全性是否受到侵犯,及时调整授权和密码,实施系统转储与备份,发生故障后及时恢复。
(2)监测并改善数据库运行性能:对数据库的存储空间状况及响应时间进行分析评价,结合用户反应确定改进措施。
(3)根据用户要求对数据库现有功能进行扩充。
(4)及时改正运行中发现的系统错误。
1
数据库定义:数据库是长期储存在计算机内、有组织的、可共享的大量数据的集合
数据库中的数据按一定的数据模型组织、描述和储存,具有较小的冗余度、较高的数据独立性和易扩展性,并可为各种用户共享
2
数据库管理技术发展的三个阶段:人工管理阶段,文件系统阶段,数据库系统阶段
3
DBMS(数据库管理系统)是位于用户与 *** 作系统之间的一层数据管理软件
主要功能:1,数据定义功能
2,数据组织、存储和管理
3,数据 *** 纵功能
4,数据库的事务管理和运行管理
5,数据库的建立和维护功能
6,其他功能
4
什么是数据模型及其要素(设计题):数据模型是数据库中用来对现实世界进行抽象的工具,是数据库中用于提供信息表示和 *** 作手段的形式构架
一般地讲,数据模型是严格定义的概念的集合
这些概念精确地描述系统的静态特性、动态特性和完整性约束条件
因此数据模型通常由数据结构、数据 *** 作和完整性约束三部分组成
(1)数据结构:是所研究的对象类型的集合,是对系统的静态特性的描述
(2)数据 *** 作:是指对数据库中各种对象(型)的实例(值)允许进行的 *** 作的集合,包括 *** 作及有关的 *** 作规则,是对系统动态特性的描述
(3)数据的约束条件:是完整性规则的集合,完整性规则是给定的数据模型中数据及其联系所具有的制约和依存规则,用以限定符合数据模型的数据库状态以及状态的变化,以保证数据的正确、有效、相容
最常用的数据模型:层次模型,网状模型,关系模型,面积对象模型,对象关系模型
5
常用的数据模型有哪些(逻辑模型是主要的),各有什么特征,数据结构是什么样的
答:数据模型可分为两类:第一类是概念模型,也称信息模型,它是按用户的观点来地数据和信息建模,主要用于数据库设计
第二类是逻辑模型和物理模型
其中逻辑模型主要包括层次模型、层次模型、关系模型、面向对象模型和对象关系模型等
它是按计算机系统的观点对数据建模,主要用于DBMS的实现
物理模型是对数据最低层的抽象,它描述数据在系统内部的表示方式和存取方法,在磁盘或磁带上的存储方式和存取方法,是面向计算机系统的
物理模型是具体实现是DBMS的任务,数据库设计人员要了解和选择物理醋,一般用户则不必考虑物理级的细节
层次数据模型的数据结构特点:一是:有且只有一个结点没有双亲结点,这个结点称为根结点
二是:根以外的其他结点有且只有一个双亲结点
优点是:1
层次数据结构比较简单清晰
2
层次数据库的查询效率高
3
层次数据模型提供了良好的完整性支持
缺点主要有:1
现实世界中很多联系是非层次性的,如结点之间具有多对多联系
2
一个结点具有多个双亲等,层次模型表示这类联系的方法很笨拙,只能通过引入冗余数据或创建非自然的数据结构来解决
对插入和删除 *** 作的限制比较多,因此应用程序的编写比较复杂
3
查询子女结点必须通过双亲结点
4
由于结构严密,层次命令趋于程序化
可见用层次模型对具有一对多的层次联系的部门描述非常自然,直观容易理解,这是层次数据库的突出优点
网状模型:特点:1
允许一个以上的结点无双亲2
一个结点可以有多于一个的双亲
网状数据模型的优点主要有:1
能够更为直接地描述现实世界,如一个结点可以有多个双亲
结点之间可以有多种上联第
2
具有良好的性能,存取效率较高
缺点主要有:1
结构比较复杂,而且随着应用环境的扩大,数据库的结构就变得越来越复杂,不利于最终用户掌握
2
网状模型的DDL,DML复杂,并且要嵌入某一种高级语言中,用户不容易掌握,不容易使用
关系数据模型具有下列优点:1
关系模型与非关系模型不同,它是建立在严格的数学概念的基础上的
2
关系模型的概念单一
3
关系模型的存取路径对用户透明,从而具有更高的数据独立性,更好的安全保密性,也简化了程序员的工作和数据库开发的建立的工作
主要的缺点是:由于存取路径房租明,查询效率往往不如非关系数据模型
因此为了提高性能,DBMS必须对用户的查询请求进行优化
因此增加了开发DBMS的难度,不过用户不必考虑这些系统内部的优化技术细节
6
三级体系结构,外模式,模式,内模式定义是什么?模式也称逻辑模式,是数据库中全体数据的逻辑结构和牲的描述,是所有用户的公共数据视图
外模式也称子模式或用户模式,它是数据库用户能够看见和使用的局部数据的逻辑结构和特征的
数据库管理系统常见的数据模型有层次模型,网状模型和语义模型。
在关系模型基础上增加全新的数据构造器和数据处理原语,用来表达复杂的结构和丰富的语义的一类新的数据模型。
数据库管理系统是一个能够提供数据录入、修改、查询的数据 *** 作软件,具有数据定义、数据 *** 作、数据存储与管理、数据维护、通信等功能,且能够允许多用户使用。另外,数据库管理系统的发展与计算机技术发展密切相关。
为此,若要进一步完善计算机数据库管理系统,技术人员就应当不断创新、改革计算机技术,并不断拓宽计算机数据库管理系统的应用范围,从而真正促进计算机数据库管理系统技术的革新。
扩展资料:
数据库管理应尽可能地消除了冗余,但是并没有完全消除,而是控制大量数据库固有的冗余。例如,为了表现数据间的关系,数据项的重复一般是必要的,有时为了提高性能也会重复一些数据项。
通过消除或控制冗余,可降低不一致性产生的危险。如果数据项在数据库中只存储了一次,则任何对该值的更新均只需进行一次,而且新的值立即就被所有用户获得。
如果数据项不只存储了一次,而且系统意识到这点,系统将可以确保该项的所有拷贝都保持一致。不幸的是,许多DBMS都不能自动确保这种类型的一致性。
数据库应该被有权限的用户共享。DBMS的引入使更多的用户可以更方便的共享更多的数据。新的应用程序可以依赖于数据库中已经存在的数据,并且只增加没有存储的数据,而不用重新定义所有的数据需求。
(一)系统数据库类型
数据库是整个农用地分等信息系统的基础,是系统开发设计要考虑的重中之重。在数据形式上,系统数据库包括两大块:一是空间数据库,二是属性数据库。目前的空间数据技术已从以MapInfo为代表的混合型数据库(空间数据库+关系型数据库)发展到以ArcInfo的Coverage为代表的拓展型数据库。鉴于农用地分等属性数据量庞大,为减少数据冗余,提高数据检索的速度,本研究采用空间数据和属性数据分开管理的模式,依据关键字段进行绑定,进行科学索引,从而实现空间数据和属性动态链接和高效整合。
1空间数据库
江苏省农用地分等信息系统空间数据库内容包括以下方面:
(1)土地利用现状图层:全省13个省辖市以1996年土地利用现状图为基础,经变更调绘形成以2000年为基准年的土地利用现状图,以现行的土地分类标准按八大类分类进行信息提取并分层存储,系统分别存储为耕地、林地、水域、未利用地、建设用地等图层。
(2)全省土壤类型图层:以土属为分类单位,比例尺为1:20万。
(3)1996年和2000年全省行政区划图层:在行政区划中精确到乡镇级别,分别提取存储了市名图层、县(区)名图层、乡(镇)名图层、全省行政界线图层、市级行政界线图层、县(区)级行政界线图层、乡(镇)级行政界线图层。
(4)评价单元图层:通过GIS空间叠加功能,利用土地利用现状图、行政区划图和土壤类型图叠加产生的评价单元图层,建立分等评价单元数据库。
2属性数据库
江苏省农用地分等信息系统属性数据库内容包括以下方面:
(1)土壤属性数据:以全国第二次土壤普查为基础,结合全省土壤监测样点数据,建立土壤质量状况数据库,最小单位为土种,包括pH值、有机质含量、表层土壤质地、耕层厚度、障碍层深度、水土侵蚀程度、盐渍化程度数据。
(2)农田水利环境数据:建立了1996~2000年间各乡镇农田水利环境基础数据库,包括灌溉保证率、排水条件数据。
(3)土地利用现状数据:建立了全省13个省辖市的以1996年土地利用现状图为基础,经变更调绘形成的以2000年为基准年的土地利用现状数据库,区分耕地中的详细用地类型差异,标示水田、旱地、荒草地等纳入本次评价范围的用地内容。
(4)全省地形地貌数据库。
(5)农业区划数据:输入了江苏省农业区划数据,把江苏全省划分为6大区划,以乡镇为最小级别,建立全省乡镇的区划归属数据库。
(6)农业耕作制度数据:建立了全省各市、县、乡镇的农业耕作制度数据库,包括指定作物水稻和小麦的播种空间分布状况数据库。
(7)光温生产潜力数据:建立了全省各市、县指定作物水稻和小麦的光温生产潜力和气候生产潜力数据库。
(8)农业投入-产出数据:全省13个省辖市以乡镇为单位,建立了1996~2000年农业生产投入-产出数据库。
(9)作物产量数据:全省13个省辖市以乡镇为单位,建立了1996~2000年的指定作物水稻和小麦的产量数据库。
(10)土地利用详查分类面积数据:全省13个省辖市以乡镇为单位,建立了2000年土地利用详查分类面积数据库。
从数据格式上分,数据库又可分为:①图件数据库:指空间数据以及绑定在空间数据上的相关属性数据,本次江苏省农用地分等建立了以分等单元为记录的属性数据库,并通过关键字段与空间数据关联;②分类统计数据库:包括全省13个省辖市以乡镇为单位的1996~2000年指定作物产量统计数据和全省13个省辖市以乡镇为单位的2000年土地利用详查分类面积统计数据。
(二)系统数据库管理模式
为减少数据存储冗余,同时提高索引速度,江苏省农用地分等信息系统数据文件采用普遍的目录树形式进行管理,按省-市-县行政体系分别存储相关数据。全省建立13个省辖市分目录,分目录下按照各自所含的县(区)建立子目录。根据目前行政管理体系现状,基础资料大多来源于县级行政单位,因此采用县(区)为基本行政单位较为合理,在保证资料来源的同时,也利于资料的分类归档存储。其相对应的空间图件数据也按精度要求分割到县级行政单位,既能减少系统调用数据的吞吐量,同时也满足了系统的精度需求。空间数据、属性数据、文本数据按照各自所属的行政级别归类存储,同时设立数据文件管理器进行目录文件的索引管理,见图3-86。
图3-86 江苏省农用地分等信息系统数据文件管理模式图
(三)系统数据库结构
数据库的结构设计决定了数据之间的调用及接口关系,清晰的逻辑调用关系和统一的数据接口格式有利于数据的组织、管理、调用。
1空间数据库
江苏省农用地分等信息系统空间数据库以矢量图件的形式存在,以分图层的方式管理,包括了全省行政界线、土壤类型、按八大类分别提取的土地利用现状、分等单元等图层。其中,分等单元图层作为农用地分等的基础,考虑到图层本身信息量大,可能影响到系统运行效率,因此所在图层的属性表中只保留了ID字段,通过ID字段与外部属性库绑定,实现分等单元与外部属性库一一对应关系。ID字段是本图层的特征代码,表征了单元的唯一性,能体现出单元的图上位置和行政归属。《农用地分等定级规程》(国土资源大调查专用)和《中华人民共和国行政区划代码》(GB/T 2260-1999)为本研究分等单元代码的编码依据;本研究有1996年和2000年两套行政区划工作底图,为此分等单元特征代码共设14位,依次为江苏省代码(2位)-市代码(2位)-2000年县或区代码(2位)-2000年乡镇代码(2位)-1996年县或区代码(2位)-1996年乡镇代码(2位)-分等单元号(2位)。其中,省、市、县(区)的行政代码按国家统一代码,乡镇级代码在县(区)范围内根据划分分等单元的需要依次编码;分等单元编号的原则是不破乡镇界,即单元号是在同一乡镇内部自行编码。示例:32011501210101,指1996年江苏(32)南京(01)市江宁县(21)由于2000年行政调整变更为南京(01)的江宁区(15)。按行政体系分级编码的优点是有利于空间查询和国土资源管理部门根据工作需求按行政级别分类汇总统计数据。
2属性数据库
江苏省农用地分等信息系统采用关系型数据库来存储数据,优点是结构清晰明了,数据的更新维护方便,通过索引能优化数据库,建立快速的查询浏览(表3-26~表3-30)。
表3-26 行政代码数据结构表
表3-27 土壤属性数据结构表
表3-28 农田水利设施数据结构表
表329 指定农作物投入-产出数据结构表
表3-30 农业耕作制度及农业区划表
(四)系统模型库
系统以《农用地分等定级规程》(国土资源大调查专用)中的相关技术方法和计算模型为基础,在模型库中预先内置了分等计算模型。模型库是动态,它允许专家根据情况动态调整计算模型形式及其参数。系统主要模型的数学计算公式如下:
(1)农用地自然质量分值(Clij)计算公式见式(3-11)。
(2)样点土地利用系数计算公式:
中国耕地质量等级调查与评定(江苏卷)
式中:
Klj´——样点的第j种指定作物土地利用系数;
Yj——样点的第j种指定作物实际单产;
Yj,max——第j种指定作物最大标准粮单产。
(3)等值区土地利用系数计算公式:
中国耕地质量等级调查与评定(江苏卷)
式中:
Klj——等值区内第j种指定作物土地利用系数;
Klj´——参与计算的同一等值区内合格样点第j种指定作物土地利用系数;
n——排除异常数据后参与计算的样点的个数。
(4)样点土地经济系数计算公式:
中国耕地质量等级调查与评定(江苏卷)
式中:
Kcj′——样点的第j种指定作物土地经济系数;
Yj——样点第j种指定作物实际单产;
Cj——样点第j种指定作物实际成本;
Aj——第j种指定作物最高“产量-成本”指数。
(5)等值区土地经济系数计算公式:
中国耕地质量等级调查与评定(江苏卷)
式中:
Kcj——等值区内土地经济系数;
Kcj´——参与计算的同一等值区内合格样点第j种指定作物土地经济系数;
n——排除异常数据后参与计算的样点的个数。
(6)农用地自然质量等指数(Ri)计算公式见式(3-12)和式(3-13)。
(7)农用地利用等指数(Yi)计算公式见式(3-14)和式(3-15)。
(8)农用地经济等指数(Gi)计算公式见式(3-16)和式(3-17)。
以上就是关于为什么要维度建模全部的内容,包括:为什么要维度建模、mysql数据库表间关系图怎么查看(数据库表与表之间的关系图)、具体的数据库设计与实现过程等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)