大数据治理平台——维度管理

大数据治理平台——维度管理,第1张

苏宁八大产业,每个产业有自己的数据集市,每个数据集市有自己的维度表,没有统一的维度管理(包括管理规范和系统支撑)。业务痛点包含以下几个方面:

建立统一的维度管理系统,实现对维度信息的统一管控,并为集团的数据产品提供统一的维度数据服务,包含维度开发管理,维度信息管理及维度数据服务三个方面。

维度数据

如上图所示,ETL将采集的数据,进行数据清洗之后存储到维度数据仓库(磐石)中,维度系统再将维度数据仓库中的数据同步达到维度库系统。

维度数据存储方式:维度数据一般以一百万的数据量作为分割点,一百万以上数据量的维度采用的存储是HBASE,一百万以下的数据采用的存储是MYSQL。

维度数据同步方式:存储到HBASE的维度数据采用的是BULKLOAD导入,存储到MYSQL的维度数据采用的是SPARKSQL+RDD写入。针对数据同步都已经实现通过页面配置任务的方式一键同步,节省人工。

为什么采用这种存储方式?

1, 针对数据量的大小采用不同的存储引擎,节约存储资源,提高维度服务的稳定性。

2, 实时指标的计算:OALP需要关联维度表和事实表做指标数据加速(实时计算指标数据)。这种需要实时的查询维度表的所有维度属性,调用量非常庞大,所以采用了直接查询HBASE的方式。

3, 维度需要提供基于维度值ID查询维度值名称的服务(包括批量精确查询和模糊查询),HBASE在精确查询上性能较高。MYSQL由于数据量不大,可以再加一层分布式缓存,提高精确查询维度值的性能。

维度建模

1, 选择业务过程

根据业务场景以及可用数据源

2, 声明粒度

根据事实表及应用场景,确定汇总粒度,一般尽可能的用最细粒度

3, 确定维度

根据确定的粒度,定义对应的维度,最细粒度,也是最低层次的维度

4, 确定事实

确认将哪些事实放到事实表中,维度表只是做关联,不做维度数据的查询服务。

维度定义

1. 当增加新的维度时,编码号将在已用号码的基础上递增,四位十进制编码号不能满足需求时,可增加编码号长度为五位十进制数,以此类推。

2. 当删除已有的维度时,其编码号将不再利用。

3. 当修改已有的维度时,其编码号不变。

4. 当拆分已有的维度或合并两个及两个以上的维度时(数据应用场景需要),其编码号的使用原则按照删除原维度,并新增拆分/合并后的维度执行。

维度管理

维度:目前维度平台支持快速定义维度,通过设置维度的基本信息,选择维度映射的维度表,做好维度与维度表的映射,设定维度的一些特性(布尔维度,时间维度,杂项维度等),检测维度的定义结果。达到了让业务人员能够只是通过页面 *** 作就可以制定需要的维度。

维度表:数据开发人员可以通过维度库平台定义维度表,定义好之后可以集成数据仓库的同步任务一键将仓库的数据同步到维度表中,将维度表与维度做映射关系。

维度层级:维度库平台支持定义维度层级,只要是维度库平台上有的维度表并且做好维度与维度的映射关系之后,就可以定义需要的维度层级,根据维度层级提供维度值的上卷下钻查询服务。

维度血缘:提供了维度,指标,报表的血缘关系,以及还准备做的维度数据的血缘,维度,指标,报表调用次数的血缘等等。

维度服务

1. 维度服务调用申请:

调用维度服务,需要在维度库管理系统中申请调用权限。等维度管理系统授权之后,生成维度服务调用授权码,在调用维度服务的时候带上维度服务调用授权码,维度服务会根据授权码判定是否有访问权限。

2. 维度系统提供的服务:

1,对存储在HBASE的维度表,我们又加了一层存储到ELASTICSEARCH(提供维度值的模糊查询服务)

2,针对负载较高的HBASE表,加了一层本地缓存,解决热点问题。

3,对存储在MYSQL的维度表,我们又加了一层存储到分布式缓存ZEDIS(提供维度值精确查询服务)。提供了定时或者手动刷新缓存数据的功能,以及缓存数据的监控机制。

监控分析

由于维度服务的调用量是亿万级别的,系统的监控统计,采用的是Log4j+kafka+druid的架构,如下图所示,应用将调用日志采用log4j- KafkaLog4jAppender写入kafka中,再将kafka与druid集成,准实时的输入druid中,业务基于druid做统计分析,查看维度服务调用成功或失败的情况。

除了维度服务的调用监控,平台还有针对维度值的数据量监控(主要监控暴增或者突然没有维度数据的情况),维度值数据质量的监控(根据维度表和事实表做数据比对,分析维度值数据的差异情况)。维度数据同步任务的监控(每个维度表的数据同步情况监控,异常告警到具体的任务负责人)。通过各种有效的监控手段,来提升维度服务的稳定性和准确性。

1. 未来平台会更加的完善,会有越来越多的维度在平台上建设,提供更加稳定和高效的维度查询服务。

2. 能够支持更多个性化的维度,能够支持维度的数据版本(例如过去一段时间的维度值),支撑全集团所有数据产品的维度调用服务,将平台打造成苏宁主数据服务的航空母舰。

3. 通过维度数据资产体系的建立,实现集团一切业务数据化,连接打通数据孤岛,驱动一切数据业务化,助力企业数字化转型,让数据做到真正意义上的产生价值。

4. 通过提供各种维度数据支持数据产品及各类应用产品,帮助各岗位用户在日常经营决策中做出正确决策。

目前平台的现状及以后的规划

1, 完善系统监控功能点:缓存任务较多,没有有效的监控,告警机制。

2, 完善业务监控功能点:数据量监控,数据异常监控,告警功能

3, 落地维度新增、变更、下线全流程审核管理功能.

4, 完善应用层的维度、指标、报表数据链路的血缘分析图谱,全方位透析资产,

5, 打通全链路维度变更通知的消息机制,降低数据链路变更带来的风险,

6, 多系统用户资源隔离、限流,保障多个部门在使用和体验上的一致性,

7, 支持用户自定义维度、完善个人工作台,基于通用维度进行维度的衍生,

8, 维度门户的建设,将业务端和管理端进行隔离,提升用户体验

 你要的全在下面:数据库已经有4代了产品很多。

DBA课程更新内容大纲:

序章 DBA职业体系与数据库产品趋势

What is DBA?

DBA成长体系与职业方向(0-30W-50W-100W-???)

数据库发展历史,产品迭代趋势与职业学习方向

第一部分 OLTP数据库-MySQL(约1天)

MySQL基础入门

MySQL数据库简介

什么是数据库?什么是OLTP?

为什么学习MySQL?MySQL产品迭代

一二线大厂MySQL主流版本功能使用与特性介绍(5.1,5.6,5.7,8.0)**独家**

MySQL部署与管理体系

5.7,8.0版本企业规范部署,启动

MySQL管理体系讲解

MySQL产品架构分析与基础管理

MySQL基础架构解析(一条SQL是如何执行的)

MySQL启动过程

MySQL连接的生命与使命

MySQL表结构实现原理

MySQL开发应用(约1.5天)

MySQL       SQL基础应用

声明式式语言与SQL语言

SQL语言应用场景与sqlmode

MySQL开发工具选择与使用

MySQL字符串类型与字符集

MySQL语句类型介绍(DDL,DCL,DML,DQL)

SQL之查询基础

SQL之聚合与排序

SQL之数据更新

SQL之复杂查询

SQL之集合运算

MySQL       SQL高级处理与开发

函数开发与应用

存储过程,触发器,事件

表分区管理及企业级应用场景

Online DDL解析与开源生态OPS

窗口函数讲解及应用场景

MySQL JSON开发及应用

一二线大厂MySQL企业级开发规范详解**独家**

MySQL核心技术

MySQL       InnoDB索引实现原理及执行计划分析(约0.5天)

索引介绍

1.      索引的由来

2.      表和索引结构

3.      表聚簇与索引行

4.      表行与索引组织表

MySQL索引介绍

InnoDB索引B+ tree的索引设计

聚簇索引与二级索引

InnDB索引插入过程

数据类型对索引应用的使用影响

执行计划介绍及结果剖析

索引优化基础实战演练

企业级索引优化实战案例(亿万级QPS的索引优化与索引上线)**独家**

MySQL InnoDB存储引擎技术内幕与深入讲解(约1天)

Mysql存储引擎介绍与功能特性

InnoDB引擎源代码目录结构与存储引擎文件组织

InnoDB存储引擎核心架构介绍及解析

InnoDB数据存储结构

InnoDB事务详解及ACID特性解析

InnoDB 日志管理机制Undo与Redo

InnoDB事务与隔离级别

InnoDB MVCC及锁机制

MySQL日志管理与实战(0.5)

General log详解

Error log详解

企业级Binary log with Data pipeline **独家**

企业级Slowlog场景应用**独家**

MySQL备份恢复与迁移(0.5)

备份工具介绍与使用场景解析

一二线大厂过万数据节点备份策略**独家**

一二线大厂Mysqldump核心原理与企业级实战演练**独家**

一二线大厂Xtrabackup核心原理与企业级实战演练**独家**

Enterprise Backup企业级生态工具介绍与应用

MySQL主从复制深入(约1天)

主从复制简介与简单搭建

主从复制工作原理解析

主从数据一致性方案讲解(半同步,全同步)

MySQL主从复制实战

1.      延时复制

2.      过滤复制

3.      多源复制

MySQL GTID复制

企业级主从复制故障分析与处理方案

亿级QPS MySQL节点故障转移实战案例**独家**

MySQL高可用架构(1天)

一二线大厂过万集群规模高可用架构MHA+BLB企业级实战**独家**

Mycat,DBLE企业级实战

MySQL企业级优化与实战(约1天)

打造高性能MySQL

企业级MySQL参数优化实战**独家**

企业级T0级别故障案例解析**独家**

阿里云数据库产品(RDS与PolarDB)(选修二选一) (1天)

企业级RDS介绍,使用与故障案例(百度云RDS 运维DBA分享或交流)**独家**

企业级PolarDB业务场景解析(阿里团队PolarDB P7交付架构师分享或交流)**独家**

第二部分 NoSQL

Redis核心技术(2天)

Redis产品介绍与应用场景简析

Redis安装,部署,使用

Redis数据类型详解与应用

Redis集群架构讲解与实战(哨兵,cluster)

千亿级Redis集群参数优化实战**独家**

千亿级企业级Redis核心案例讲解与业务场景解析**独家**

MongoDB核心技术(2天)

MongoDB产品介绍与应用场景简析

MongoDB安装,部署及架构解析

MongoDB数据类型与运维管理

MongoDB集群架构讲解与实战

企业级MongoDB参数优化实战**独家**

BAT千万元级别故障案例分享**独家**

ES核心技术(2天)

ES产品介绍与应用场景简析

ES安装,部署及架构解析

ES日常运维管理

第三部分 NewSQL(4天)

NewSQL-TiDB(仅学此一个+MySQL至少20K起步) TUG核心成员-PingCAP官方认证讲师 **独家**

TiDB产品介绍与分布式数据库技术应用讲解

TiDB集群部署与日常管理

TiDB集群监控详解与指标应用

TiDB核心架构深入讲解与Raft协议深入浅出**独家*

企业级TiDB-DM理解与应用**独家*

1.      58同城亿级流量Mysql热迁移TiDB**独家**

2.      DM集群多源同步复制场景最佳实践(官方认证,业界唯二)**独家**

TiDB企业级业务开发最佳实践**独家**

TiFllash核心架构讲解与实战**独家**

TiDB打造HTAP实时数仓平台架构设计**独家**

Cloud TiDB(K8S上云实战)**独家**

TiDB4.0热升级5.0集群(简介:我司与Pingcap官方{开发30人,交付专家7人,项目经理4人}封闭测试与在线升级全案例解析6.23日项目完结,官方认证业界目前第一的业务场景与投入)

NewSQL-TDengine(1天 选修)

TDengine产品介绍

TDengine单机版与集群部署与管理

TDengine架构体系详解

TDengine企业级参数优化与实战

TDengine业务开发规范与业务场景实战

第四部分 企业级大规模数据库集群运维开发实战(35W+年薪提升)**独家**

数据运维产品架构设计思路(0.5天)

什么是数据运维平台

企业级数据运维平台架构解析

数据运维平台企业级原型设计实战(0.5天)

数据库运维自动化工具开发(Shell,Python)(2天5选2,下期轮换)

MySQL亿万级流量运维平台开发

Redis亿万级流量运维平台开发

ES亿万级流量运维平台开发

MongoDB亿万级流量运维平台开发

TiDB亿万级流量运维平台开发


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/7255583.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-03
下一篇 2023-04-03

发表评论

登录后才能评论

评论列表(0条)

保存