数据质量建设的意义,在于数据质量问题的解决和保障数据质量。通过成立数据质量管理组织,明确成员的职责以及分工。建立基于数据仓库质量问题定义、发现、分析、反馈、整改的闭环流程。最后通过抓手将数据质量与kpi考核挂钩,提升每一个人的数据质量意识。
1.数据质量定义数据质量主要是指数据满足使用需要的适用程度。这一般可以从以下四个方面进行评估。
准确性准确性是指数据的信息和数据是否准确,是否存在异常或者错误的信息。比如说下单金额为负数,转化率大于1等等,这种一看就说明数据不准。
一致性一致性是指同一个指标在不同的表中命名,取数口径(逻辑)等必须保持一致。保持一致性是为了让我们能更好的管理和使用。避免出现同一个指标多个出口结果不一致,谁对谁错的问题。
及时性及时性是指数据能否按照需求及时产出。数据是有时效性的,及时产出给下游才体现的出数据的价值。而现在随着需求越来越精细化,业务对实时的需求也越来越迫切。对数据及时性的产出要求也越来越高。
完整性完整性是指数据记录和信息是否完整,是否存在缺失的情况。数据缺失主要包括整条记录的缺失和单个字段的缺失。可能原因是在加工过程中出现被过滤,多表关联没有对应上或者上游同步过来的数据本身存在的问题等等。
2.数据质量建设方案 设立负责人:首先需要设立一个负责人,主要职责是 问题确立、制定规范、推进执行、落地解决等。其他人负责配合其完成相关工作。
建立完整的保障机制:按照事前,事中,事后三个方面来设立规范。每个方面都要有相应的保障机制,和处理办法。
事前:事前,通过圈定数据质量范围,制定研发各个环节的质量规范,把95%可能的数据质量问题把控在事前。
事中:事中,针对数据进行数据质量监控,及实地发现质量风险点。
针对不同的表配置不同的DQC规则。DQC规则分为表级,字段级和自定义三种。并有强弱规则之分,强规则触发会报警并停止下游任务执行,弱规则只会报警,但不会停止运行。在实际 *** 作中,我们需要针表的重要性来针对性的建立规则。因为DQC也会占用一定的资源消耗,如果无脑堆规则会导致整体产出滞后。
事后:事后,对已经发生的数据质量问题,详细的分析影响以及原因,制定完善流程或策略,避免质量点再次发生。
制定抓手:在设定了一系列的规则之后,我们需要一个标准来衡量我们的数据质量建设效果。这里给出几个例子,供参考。
总结数据价值是数仓的核心,数据质量是决定数据价值的核心。数据质量作为数据治理的关键一环,需要我们重要对待。数据质量的建设不是一朝一夕就能完成,需要不断的迭代推进。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)