①清晰数据结构:每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解,实现业务数据解耦。
②减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算
③统一数据口径:通过数据分层,提供统一的数据出口,统一对外输出的数据口径
④复杂问题简单化:将一个复杂的任务分解成多个步骤来完成,每一层解决特定的问题
数据建模必须遵循一定的规则,在关系建模中,这种规则就是范式。
目的:降低数据冗余
缺点:大量join导致查询效率低下
分类第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、巴斯-科德范式(BCNF)、第四范式(4NF)、第五范式(5NF)。
数仓建模两种建模方式
关系建模和维度建模
关系建模关系建模将复杂的数据抽象为两个概念——实体和关系,并使用规范化的方式表示出来。关系模型如图所示,从图中可以看出,较为松散、零碎,物理表数量多。
关系模型严格遵循第三范式(3NF),数据冗余程度低,数据的一致性容易得到保证。由于数据分布于众多的表中,查询会相对复杂,在大数据的场景下,查询效率相对较低
维度建模维度模型以数据分析作为出发点,不遵循三范式,故数据存在一定的冗余。维度模型面向业务,将业务用事实表和维度表呈现出来。表结构简单,故查询简单,查询效率较高。
维度表和事实表维度表:一般是对事实的描述信息。每一张维表对应现实世界中的一个对象或者概念。 例如:用户、商品、日期、地区等。
维表的特征:
维表的范围很宽(具有多个属性、列比较多)跟事实表相比,行数相对较小:通常< 10万条内容相对固定:编码表事实表:事实表中的每行数据代表一个业务事件(下单、支付、退款、评价等)。“事实”这个术语表示的是业务事件的度量值(可统计次数、个数、金额等),例如,2020年5月21日,宋宋老师在京东花了250块钱买了一瓶海狗人参丸。维度表:时间、用户、商品、商家。事实表:250块钱、一瓶
每一个事实表的行包括:具有可加性的数值型的度量值、与维表相连接的外键,通常具有两个和两个以上的外键。
事实表的特征:
非常的大内容相对的窄:列数较少(主要是外键id和度量值)经常发生变化,每天会新增加很多。事实表的分类
事务型事实表,周期型快照事实表,累积型快照事实表
维度模型分类
星型模型和雪花模型
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)