数据模型架构原则

数据模型架构原则,第1张

数据模型架构原则 数据模型架构原则

1 数仓分层原则
1 数据源层:ODS(Operational Data Store)
2数据仓库层:DW(Data Warehouse)
1) 数据明细层:DWD (Data Warehouse Detail)
2) 数据中间层: DWM (DataWareHouse Middle)
3) 数据服务层: DWS (Data WareHouse Servce)
3 数据应用层:APP (Application)
4 维度层:Dimension

2 主题域划分原则
1)按照业务或业务过程划分
2)按照数据域划分

3 数据模型划分原则
1) 高内聚、低耦合
2) 核心模型和跨站模型要分离
3) 公共处理逻辑下沉及单一
4) 成本与性能平衡
5) 数据可回滚

数仓公共开发规范
1 层次调用规范
ODS==>DWD(>DWM)>DWS==>APP

2 数仓类型规范
1.金额 doubledecimal(28,6)
2 字符串 string
3 Id 类:Bigint
4 时间: string
5 状态 : string

3 数仓冗余规范
1 冗余字段要使用高频,下游3个或以上使用。
2 冗余字段引入不应造成本身数据产寿过多的延后。
3 冗余字段和已有字段的重复率不应过大,原则上不超过60%,如需join或源表拓展

4 NULL字段处理规范
对于维度字段,需设置为-1
对于指标字段,需设置为0

5 指标口径规范
1 ) 指标数理
2 ) 指标管理
原子指标
派生指标

6 数据表处理规范
1) 增量表
2 )全量表
3) 快照表
4 ) 拉链表

7 表的生命周期管理
1) 历史数据等级划分
P0 :非常重要的主题域数据和非常重要的应用数据,具有不可恢复性,如交易、日志、集团 KPI 数据、 IPO 关联表。P
P1 : 重要的业务数据和重要的应用数据,具有不可恢复性,如重要的业务产品数据。
P2 : 重要的业务数据和重要的应用数据,具有可恢复性,如交易线 ETL 产生的中间过程数据。
P3 : 不重要的业务数据和不重要的应用数据,具有可恢复性,如某些 SNS 产品报表。

2 ) 表类型划分
1 事件型流水表(增量表)
2 事件型镜像表(增量表)
3 维表
4 Merge 全量表
5 ETL 临时表
6 TT 临时数据
7 普通全量表

数仓各层次开发规范
1 ODS层设计规范
同步规范:
一个系统源表只允许同步一次;
全量初始化同步和增量同步处理逻辑要清晰;
以统计日期和时间进行分区存储;
目标表字段在源表不存在时要自动填充处理。

表分类与生命周期:
1 ods流水全量表:
不可再生的永久保存;
日志可按留存要求;
按需设置保留特殊日期数据;
按需设置保留特殊月份数据;

2 ods镜像型全量表:
推荐按天存储;
对历史变化进行保留;
最新数据存储在最大分区;
历史数据按需保留;

3 ods增量数据:
推荐按天存储;
有对应全量表的,建议只保留14天数据;
无对应全量表的,永久保留;

4 ods的etl过程中的临时表:
推荐按需保留;
最多保留7天;
建议用完即删,下次使用再生成;

5 BDSync非去重数据:
通过中间层保留,默认用完即删,不建议保留。

数据质量
全量表必须配置唯一性字段标识;
对分区空数据进行监控;
对枚举类型字段,进行枚举值变化和分布监控;
ods表数据量级和记录数做环比监控;
ods全表都必须要有注释;

2 公共维度层设计规范
1 ) 设计准则
1 一致性
2 维度的组合与拆分

2 ) 存储及生命周期管理
3个月内最大访问跨度<=4天时,建议保留最近7天分区;
3个月内最大访问跨度<=12天时,建议保留最近15天分区;
3个月内最大访问跨度<=30天时,建议保留最近33天分区;
3个月内最大访问跨度<=90天时,建议保留最近120天分区;
3个月内最大访问跨度<=180天时,建议保留最近240天分区;
3个月内最大访问跨度<=300天时,建议保留最近400天分区;

3 DWD明细层设计规范
1 事务型事实表设计准则
2 周期快照事实表
3 累积快照事实表

4 DWS公共汇总层设计规范
1 ) 聚集的基本原则
2 ) 聚集的基本步骤
1 确认聚集维度
2 确认一致性上钻
3 确认聚集事实

3 ) 公共汇总层设计原则
数据公用性
不跨数据域
区分统计周期

数仓命名规范
1 词根设计规范
2 表命名规范
1 ) 常规表 分层前缀[dwd|dws|ads]部门_业务域_主题域_XXX_更新周期|数据范围
2 )中间表 mid_table_name
[0~9|dim]
3 ) 临时表 tmp_xxx
4 ) 维度表 dim_xxx
5 ) 手工表 dwd_业务域_manual_xxx

3 指标命名规范
1) 公共规则
2) 指标命名规范

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5618695.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-15
下一篇 2022-12-15

发表评论

登录后才能评论

评论列表(0条)

保存