贴源数据表设计
贴源数据层中的数据表与 对应 的业务系统数据表原则上保持一直, 数据结构上几乎不做修改所以参考业务系统数据表结构来设计 贴源数据就可以了, 结构设计上没有太多的规范要求, 考虑到业务系统数据多样性, 贴源数据表设计要遵循一些规范
贴源数据层表 命名 采用前缀 加业务系统表名方式,可以区分来源
贴源 数据层表 字段名 和业务系统字段保持一直, 在ods 不做 字段命名 归一, 字段类型 也尽可能保持 一直, 如果数据中台没有和业务系统对应的数据类型 则用一个 可以兼容的 数据类型, 比如 业务系统的数据类型是float,数据中台的储存系统没有float, 则可以用double代替
对于一些数据量较大 的业务数据表, 如果 采用 增量同步的方式, 则要同时 建立 增量表 的全量表, 增量表 利用后缀 标识, 汇聚到增量表的数据通过 数据加工任务合并生成全量表数据
对于日志 文件 等半结构化 数据, 不仅要储存原始数据, 还需要储存结构化之后的数据, 原始 数据 可以 按行储存在文本类型的大字段,然后通过解析任务把数据解析到结构化数据表中
通过以上建设规范, 可保障企业所有业务数据按照一致的储存方式储存到数据中台
贴源数据表实现, 贴源数据层 一般 采用 数据同步工具 实现数据的同步 落地,
1确定业务系统源表和贴源数据层目标表
2配置数据字段映射关心, 目标表肯恩回增加擦埃及 日期 分区 原系统标识 等 必要信息, 业务相关内容不做转换
3如果是增量同步 或者有条件同步部分数据, 则配置是数据同步条件
4清理目标表 对应数据
启动同步任务 ,往贴源层 目标哦表 导入数据
6验证 任务 是否可以正确运行, 并且采集 到准确数据
7发布采集任务, 加入生产调度, 并配置 相关限速, 容错, 质量监控, 告警机制
统一数仓层 建设 ,标准化的数据底座
贴源数据层支队企业各个来源的数据做汇聚 整合, 没有做太多的加工处理, 数据基本还是原始的
统一数仓层是 站在业务的视角 不考虑 业务 系统流程, 从业务完整性的叫嘟嘟 重新 组织数据, 统一数仓层的目标是建设一套覆盖全域 权力是的 企业数据体系, 利用这套数据体系可以还原企业任意时刻的业务运转状态, 只要能达到 这个目标 利用范式建模 维度建模 实体建模 任一一个方法都可以, 这里使用维度建模
维度建模是实现统一数仓层建设目标的一种推荐建模方式, 用事实表 维度表来组织数据
模型简单易理解 仅有维度 事实 两种类型数据
性能好,
数据冗余 由于在构建事实表星型模式之前 需要进行大量数据预处理, 因此回导致大量数据处理工作, 当业务发生变化, 需要重新进行维度的定义 ,需要重新进行维度数据的预处理, 在预处理过程中, 导致大量数据冗余。
大数据时代, 数据是资产, 数据应该在业务中发挥 更大作用,易理解 ,易用 性能好 扩展性好的模型技术能让数据更方便参与业务, 随着技术的发展 储存 计算成本 降低, 经常会 以 储存 换取性能和应用型。
相关概念, 统一数仓层 建设以 维度建模 为理论基础, 构建 总线矩阵, 划分业务板块, 定义 数据域 业务域过程 维度, 院子 指标 修饰类型 修饰词 时间 周期 派生指标 进而确定维度表 事实表模型设计,
准确定义属于非常关键
业务板块 根据业务的属性划分出的相对独立的业务板块, 业务板块是一种大的划分
模型设计, 以建模理论为基础,基于维度建模总监架构,构建一致性的维度和事实, 同时设计出一套表命名规范
数据域 数据域是统一数仓层的顶层划分, 是一个较高层次的数据归类标准, 是对企业 业务过程进行抽象, 提炼 组合的集合, 面向业务分析, 一个数据域 对应一个宏观分析领域, 比如 采购 供应链 hr 等 ,数据域是抽象 提炼出来的, 不轻易变动 ,只有当所有分类都不合适时候 才会 开阔韩 新的 数据域, 数据域是有效归纳 ,组织业务过程的方式, 同时 方便定位 指标 度量
业务过程 是一种企业的业务活动时间, 且是企业精英过程中不可拆分的行为时间, 业务过程产生度量, 并且会被转换为最终的事实表中的事实, 业务过程一般和事实表意义对应,
修饰词 修饰词 指 除了维度以外的对指标激进型限定抽象的业务场景词语, 修饰词隶属于一个修饰了类型, 比如 在日志域的访问终端类型下 有修饰词 pc 无线端, 修饰类型的出现为了方便管理, 使用 修饰词
院子指标, 是针对某一业务事件行为的度量 ,是一种不可拆分的质保, 具有明确业务含义, 比如支付金额,院子指标有确定的名称 数据类型 算法说明, 所述 数据域 和业务过程, 院子指标名称 一般 是 动作加度量 比如 支付金额
派生指标 品牌盛指标可以理解是对院子指标业务统计范围的圈定
派生指标 = 1个原子指标+多个修饰词+时间修饰词
计算方法 是数据计算方式
维度表 ,是观察事物的角度 , 提供某一业务过程时间所涉及的用于过滤以及 分类事实的描述性属性, 维度表是统一涉及的 ,在整个数据仓库中 共享 , 所有数据域 业务过程 都需要用到维度 ,都可以在公共维度表中获取 相关维度属性
事实表, 是观察事物 得到的事实数据 ,事实涉及来自业务过程时间的度量,基本都是以数量值表示,在确定数据域和业务过程后 ,可以根据业务过程设计的维度 度量 和粒度 设计相关的事实表,事实表不跨 数据域,
数据域是指面向业务嚯数据进行本质分析,归纳总结的数据集合, 保障 整个体系的生命力, 数据域需要抽象提炼,
数据域划分过程
1数据调研
业务调研 确定项目要涵盖的业务领域和业务线,以及业务线的戏份,
调研全部数据目录信息, 梳理数据流和业务工程关联惯性系
2业务分类
业务过程提取,根据调研结果抽取出全部业务过程
业务过程拆分, 将组合型业务过程拆分陈不可分割的时间, 下单 支付 收货 退款
业务过程分类, 按照业务分类规则, 将相似特征的业务过程氛围一类, 且每一个业务过程 只能归属于一类
3数据域定义
业务分类确认 对业务分类结果再次确认 避免分类范围中出现业务特征明显 和其他业务过程无关的情况
收据域定义 根据业务分类的规律总结出划分业务范围的标准定义
数据域明明 为每个数据域 起一个专属名称
总线矩阵的构建
关系梳理 ,明确每个数据域下游哪些 业务过程 ,并梳理出业务过程和哪些维度相关
矩阵构建 定义 一张二维矩阵,将数据域下的业务过程和维度信息如实记录下来
指标设计
指标急救室在企业业务运转工程中产生的度量事实, 一致性指标设计是为了再企业内外部使指标的命名 计算方法 业务理解达到一直 ,避免不同部门同一个指标数据对不上 或者对统一 指标的数据 理解不一致
一致性 指标 定义为, 描述 原子指标 修饰词 十几件周期 和派生指标的含义 类型 命名 算法 模型设计 建模的基础
一致性指标设计是事实表模型设计的来源, 有了一致性指标定义, 在设计事实表模型时引用定义好的一致性指标, 可达到指标的一致性 和标志性
维度表设计
维度是维度建模的基础 ,维度表设计得好坏就决定了维度建模的好坏, 维度表 包含了事实表所记录的业务过程度量的上下文和环境
维度表设计 主要包括 选择 维度 确定主维表 梳理关联维表 定义 维度属性
必须保证维度的唯一性 ,
主维表一般般直接从业务系统同步而来,
事实表设计
事实表事实统一上述仓层建设主要产出物, 统一数仓 绝大部分表都是事实表, 一般来说事实表 由两部分组成,一部分主键 和外键 组成 另一部分是用来描述业务过程的事实度量, 事实表的键值部分确定了事实表的粒度, 事实表通过 里兜 和事实度量来描述 业务过程 , 事实表 的外键 总是 对应 某个维度表的主键,
事务事实表 周期快照事实表 累计快照事实表
确定业务过程
定义粒度
标签数据层是面向对象建模
可以把对象分为 人 物 关系 三大类
如果需要地一个对象进行全面的数据收集 完整刻画
就需要将多方数据进行融合打通 ,要完成恒对象的id打通一般会给每个对象设置一个 超级 ID
ID打通 需要关系映射
通过算法打通对象的不同ID标识,凉凉 ID之间的打通关系有一定的误差, 通过置信度来描述这误差 置信度 越高 则 误差越小 反之则越大,不同业务根据业务域自身的需要 ,选择不同的置信度,
ID打通 是标签体系建设的前提, 没有IID打通就无法手机到一个对象的全面信息, 就无法对这个对象进行全面标签化刻画
标签类目 设计
企业业务需要使用的标签项 好很多, 当标签超过五十个时, 讹误人员要使用或查找标签就开始变得麻烦。
通过建立对象标签类目体系来对对想的标签进行分类管理
构建标签类目体系 首先 需要确定 根目录 根目录就是对象 , 三大根目录 人 物 关系 ,
根是人, 类目体系就是人的标签类
根据此类方式, 也可以把物细分成物品 物体 物品集合 物体集合等亚雷 , 亚类下也可以分出 细跟, 关系 也可以 细分成关系 记录 , 关系集合,
数据类目体系按照 数据 采集 储存 管理 等系统原有的业务体系 进行划分 ,因为 对于数据开发者 或 数据库管理员 来说, 按照数据本身的流程 进行储存
标签类目 体系 哪找 数据理解 使用 价值 等数据应用的交付进行划分 标签 类目体系的作用是供业务
按照客户真实业务需求来构建类目结构
标签本质上是一种对客观世界中实体对象的度量或描述,是经过缜密的逻辑分析和处理后的产物,用以引导发挥数据应用价值。数据必须转化成能帮助业务提升的标签才具有价值
大数据业内一直尝试探索的最核心环节就是数据的商业变现,或者叫数据到商机价值之间的桥梁通道建设。
标签的设计是业务需求与经验结合的结晶,是一个漫长的持续迭代的过程
标签设计的内容不仅包括标签名,还要有归属标签类目、计算逻辑、取值范围、安全等级等
标签根目录指的是标签的对象
世上的一切事物都可以归类为人、物、场景三类对象
应用层数据层建设
灵活支撑业务需求
BI分析报表
兴趣推荐
搜索优化
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)