数据仓库基础
发展历程
1.非开放式系统 MainFream (早期) 开放式Linux unix
2.数据仓库出现的原因本质上是来解决读写冲突,比如在上世纪70年代出现了读库,后来又衍生出了数据仓库内容
3.银行系统是不允许删除数据的,如果有问题,会使用冲账的方式
4.数据仓库建设的两位大师
(1)BillInmon
思想:范式化建模
概念:面向主题的 集成的 非易失的 随时间变化的数据集合
(2)Ralph Kimball
思想:维度建模
主导:通过一系列维数相同的数据集市递增地构建数据仓库(自下而上建立数据仓库,推崇数据集市,数据仓库是数据集市的集合,信息存储在多维模型中)
5.数据建设领域名词:
早期概念
数据仓库: 存放结构化数据,为企业核心数据,技术载体MMP,时效性T+1
数据集市:存放结构化数据,为业务核心数据,技术载体MMP,时效性T+1(ps:面向xxx经营集市)
数据源(ODS):存放结构化数据,为企业核心数据,技术载体MMP,时效性T+1
目前概念
大数据:存放结构化/非结构化数据,为企业全部数据,技术载体Hadoop,时效多时态
数据湖:存放结构化/非结构化数据,为企业全部数据,技术载体混搭,时效多时态 (两种说法一湖两库:数据仓库,大数据平台,一湖三区:数据仓库,大数据平台,外部数据)
数据中台:存放结构化/非结构化数据,为企业全部数据,技术载体混搭,时效多时态[前台,后台]
范式化建模
1.表 代表关系 行 代表集合
2.三范式 3NF
第一范式 强调列不能有重复[列具有原子性,不可拆分]
第二范式 强调主键依赖性[记录唯一,如所有非主键字段必须完全依赖主键(联合主键,如单主键天然的满足2NF)]
第三范式 强调没有传递依赖
3.做三范式拆分 1.取所有属性 2.不能重复 3.1NF分解(并加外键) 4.2NF分解,依赖主键(全部字段) 5 3NF分解
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)