如何有效的进行数据治理和数据管控

如何有效的进行数据治理和数据管控,第1张

从技术实施角度看,主要包含“理”“采”“存”“管”“用”这五个,即业务和数据资源梳理、数据采集清洗、数据库设计和存储、数据管理、数据使用。

数据资源梳理:数据治理的第一个步骤是从业务的视角厘清组织的数据资源环境和数据资源清单,包含组织机构、业务事项、信息系统,以及以数据库、网页、文件和 API 接口形式存在的数据项资源,本步骤的输出物为分门别类的数据资源清单。

数据采集清洗:通过可视化的 ETL 工具(例如阿里的 DataX,Pentaho Data Integration)将数据从来源端经过抽取 (extract)、转换 (transform)、加载 (load) 至目的端的过程,目的是将散落和零乱的数据集中存储起来。

基础库主题库建设:一般情况下,可以将数据分为基础数据、业务主题数据和分析数据。基础数据一般指的是核心实体数据,或称主数据,例如智慧城市中的人口、法人、地理信息、信用、电子证照等数据。主题数据一般指的是某个业务主题数据,例如市场监督管理局的食品监管、质量监督检查、企业综合监管等数据。而分析数据指的是基于业务主题数据综合分析而得的分析结果数据,例如市场监督管理局的企业综合评价、产业区域分布、高危企业分布等。那么基础库和主题库的建设就是在对业务理解的基础上,基于易存储、易管理、易使用的原则抽像数据存储结构,说白了,就是基于一定的原则设计数据库表结构,然后再根据数据资源清单设计数据采集清洗流程,将整洁干净的数据存储到数据库或数据仓库中。

元数据管理:元数据管理是对基础库和主题库中的数据项属性的管理,同时,将数据项的业务含义与数据项进行了关联,便于业务人员也能够理解数据库中的数据字段含义,并且,元数据是后面提到的自动化数据共享、数据交换和商业智能(BI)的基础。需要注意的是,元数据管理一般是对基础库和主题库中(即核心数据资产)的数据项属性的管理,而数据资源清单是对各类数据来源的数据项的管理。

血缘追踪:数据被业务场景使用时,发现数据错误,数据治理团队需要快速定位数据来源,修复数据错误。那么数据治理团队需要知道业务团队的数据来自于哪个核心库,核心库的数据又来自于哪个数据源头。我们的实践是在元数据和数据资源清单之间建立关联关系,且业务团队使用的数据项由元数据组合配置而来,这样,就建立了数据使用场景与数据源头之间的血缘关系。 数据资源目录:数据资源目录一般应用于数据共享的场景,例如政府部门之间的数据共享,数据资源目录是基于业务场景和行业规范而创建,同时依托于元数据和基础库主题而实现自动化的数据申请和使用。

质量管理:数据价值的成功发掘必须依托于高质量的数据,唯有准确、完整、一致的数据才有使用价值。因此,需要从多维度来分析数据的质量,例如:偏移量、非空检查、值域检查、规范性检查、重复性检查、关联关系检查、离群值检查、波动检查等等。需要注意的是,优秀的数据质量模型的设计必须依赖于对业务的深刻理解,在技术上也推荐使用大数据相关技术来保障检测性能和降低对业务系统的性能影响,例如 Hadoop,MapReduce,HBase 等。

商业智能(BI):数据治理的目的是使用,对于一个大型的数据仓库来说,数据使用的场景和需求是多变的,那么可以使用 BI 类的产品快速获取需要的数据,并分析形成报表,像派可数据就属于专业的BI厂商。

数据共享交换:数据共享包括组织内部和组织之间的数据共享,共享方式也分为库表、文件和 API 接口三种共享方式,库表共享比较直接粗暴,文件共享方式通过 ETL 工具做一个反向的数据交换也就可以实现。我们比较推荐的是 API 接口共享方式,在这种方式下,能够让中心数据仓库保留数据所有权,把数据使用权通过 API 接口的形式进行了转移。API 接口共享可以使用 API 网关实现,常见的功能是自动化的接口生成、申请审核、限流、限并发、多用户隔离、调用统计、调用审计、黑白名单、调用监控、质量监控等等。

开发网站,往往需要用数据库保存数据。我们该如何创建数据库与创建数据表呢?方法其实很简单,下面就由小编教你如何用NavicatforMySql创建数据库与数据表的 *** 作流程。

工具/原料

电脑

Navicat数据库管理工具

方法/步骤

1、第一步:在本地创建数据库,首先把数据库运行环境启动,Apache与MySQL都显示绿色,表示环境开启成功,否则环境开启失败就无法 *** 作数据库。

2、第二步:打开NavicatforMySql这个数据库管理工具,它是用来管理我们的数据库的创建,管理等 *** 作,如下图所示:

3、第三步:打开NavicatforMySql之后,在左侧用鼠标右键,选择新建数据库

4、第四步:进入创建数据库的页面,数据库名命名为myxiaoze;字符集填写utf8--UTF-8Unicode;排序规则填写utf8_general_ci,填好之后点击确定:

5、第五步:在左侧右键刷新,就可以看到刚刚创建好的数据库,如下图所示:

6、第六步:双击打开刚刚创建好的数据库,点击表,在右边空白处右键,选择新建表,如图所示:

7、第七步:进入创建表的页面,接下来就是创建字段了,设置主键并且自动递增,自动递增的作用是,每增加一条数据,id就会自动增加,不需要我们输入。

8、第八步:同时按Ctrl+s保存数据表,并且填写数据表名,命名为xz。通过上面的步骤,我们就完美实现数据库的创建与数据表的创建。

1SQLServer2000常用的数据导入导出方法1

1通过DTS的设计器进行导入或导出DTS的设计器功能强大,支持多任务,也是可视化界面,易于 *** 作,但熟悉的人一般不多,如果只是进行SQLServer数据库中部分表的移动,用这种方法最好,当然,也可以进行全部表的移动

在SQLServerEnterpriseManager中,展开服务器左边的+,选择数据库,右击,选择Alltasks/ImportData

(或Alltasks/ExportData

),进入向导模式,然后按照提示一步一步进行就可以了,里面分得非常详细,可以灵活的在不同数据源之间复制数据,非常的方便,而且还可以另存成DTS包,如果以后还有相同的复制任务,直接运行DTS包就行,省时省力

也可以直接打开DTS设计器,方法是展开服务器名称下面的DataServices,选LocalPackages,在右边的窗口中右击,选NewPackage,就打开了DTS设计器

值得注意的是:如果源数据库要拷贝的表有外键,注意移动的顺序,有时要分批移动,否则外键主键,索引可能丢失,移动的时候选项旁边的提示说的很明白,或者一次性的复制到目标数据库中,再重新建立外键,主键,索引

其实在建立数据库时,建立外键,主键,索引的文件应该和建表文件分开,而且用的数据文件也分开,并分别放在不同的驱动器上,有利于数据库的优化

1

2利用Bcp工具这种工具虽然在SQLServer2000的版本中不推荐使用,但许多数据库管理员仍很喜欢用它,尤其是用过SQLServer早期版本的人

不过Bcp确实有其局限性,首先它的界面不是图形化的;其次它只是在SQLServer的表(视图)与文本文件之间进行复制

但是另一方面,它也有其优点:性能好,开销小,占用内存少,速度快

1

3利用备份和恢复先对源数据库进行完全备份,备份到一个设备(device)上,然后把备份文件复制到目的服务器上(恢复的速度快),进行数据库的恢复 *** 作,在恢复的数据库名中填上源数据库的名字(名字必须相同),选择强制型恢复(可以覆盖以前数据库的选项),在选择从设备中进行恢复,浏览时选中备份的文件就行了

这种方法可以完全恢复数据库,包括外键,主键,索引

1

4直接拷贝数据文件把数据库的数据文件(

mdf)和日志文件(

ldf)都拷贝到目的服务器,在SQLServerQueryAnalyzer中用语句进行恢复:EXECsp_attach_db@dbname=’test’,@filename1=’d:mssql7data est_data

mdf’,@filename2=’d:mssql7data est_log

ldf’这样就把test数据库附加到SQLServer中,可以照常使用,如果不想用原来的日志文件,可以用如下的命令:EXECsp_detach_db@dbname=’test’EXECsp_attach_single_file_db@dbname=’test’,@physname=’d:mssql7data est_data

mdf’这个语句的作用是仅仅加载数据文件,日志文件可以由SQLServer数据库自动添加,但是原来的日志文件中记录的数据就丢失了

1

5在应用程序中定制可以在应用程序(PB、VB)中执行自己编写的程序,也可以在QueryAnalyzer中执行,这种方法比较灵活,其实是利用一个平台连接到数据库,在平台中用的主要是SQL语句,这种方法对数据库的影响小,但是如果用到远程链接服务器,要求网络之间的传输性能好,一般有两种语句:1

5

1select

intonew_tablenamewhere

1

5

2insert(into)old_tablenameselect

from

where

这两种方式的区别是前者把数据插入一个新表(先建立表,再插入数据),而后者是把数据插入已经存在的一个表中,一般来说,第二条语句强于前者

1

6SQLServer的复制功能SQLServer提供了强大的数据复制功能,也是最不易掌握的,具体应用请参考相关资料,值得注意的是要想成功进行数据的复制工作,有些条件是必不可少的:1

6

1SQLServerAgent必须启动,MSDTC必须启动

1

6

2所有要复制的表必须有主键

1

6

3如果表中有text或image数据类型,必须使用withlog选项,不能使用withno_log选项

另外maxtextreplsize选项控制可以复制的文本和图像数据的最大规模,超过这个限制的 *** 作将失败

1

6

4在要进行复制的计算机上,应该至少是隐含共享,即共享名是C$或D$

1

6

5为SQLServer代理使用的WindowsNT账号不能是一个本地的系统账号,因为本地的系统账号不允许网络存取

1

6

6如果参与复制的服务器在另外的计算机域中,必须在这些域之间建立信任关系

2实现基于网页的数据库数据导入那么,如何实现基于网页的数据库数据导入呢,下面利用一个比较简单的网络介绍一下

假设某局域网的网络拓扑结构如下所示:其中服务器A和工作站B位于局域网内,工作站C与服务器D位于Internet内,局域网与Internet是物理隔离的,工作站C与工作站D在同一个办公室内,服务器A上的数据库管理系统是Oracle,服务器D上的数据库管理系统是SQLServer2000

由于工作需要,要求把服务器A的有关数据导入到服务器D上

2

1通常的工作流程:2

1

1在工作站B上运行客户端软件,将服务器A上数据导入到本地的dbf文件

2

1

2用移动硬盘把dbf文件从工作站B拷贝到工作站C上

2

1

3在工作站C上,用ftp软件将dbf文件上传到服务器D上

2

1

4在工作站C上,运行远程桌面软件登录到服务器D上

2

1

5在服务器D上,执行DTS,将dbf文件中的数据导入到SQLServer数据库

2

1

6在服务器D上,运行相关存储过程,做数据的后期处理工作

在许多情况下,因为各种不同情况的需要,这个工作流程每天(甚至更短的时间内)就要执行一次,非常繁琐,而且使用手工 *** 作,很容易出错

下面提出一种改进的方案

2

2改进后的工作流程2

2

1在工作站B上运行客户端软件,将服务器A上数据导入到本地的dbf文件

2

2

2用移动硬盘把dbf文件从工作站B拷贝到工作站C上

2

2

3在工作站C上,打开服务器D上的相关网页,利用网页将dbf文件的数据导入到服务器D上的SQLServer数据库中

首先,要在网页里实现上传功能,把dbf文件从工作站C上传到服务D上,这里就不多介绍了

要通过网页把dbf文件导入到SQLServer中,需要借助DTS可编程对象

DTS包含一组可编程COM对象,主要包含:DTS

Package、DTS

Connection、DTS

Step、DTS

、DTS

、DTS

在ASP网页里,通过用VBScript脚本创建调用DTS可编程COM对象,可以完成数据导入任务

SQLServer2000有比较详细的文档资料介绍DTS编程,但没有给一个具体的例子,如果仅参考文档资料,难度比较大,开发时间也会相当长

这里大概的介绍一下开发程序的过程

首先,在SQLSever2000的DTS设计器里,创建DTS包,实现从dbf文件到SQLServer2000的数据导入,把后期处理的存储过程也添加到DTS包里

将这个DTS包另存为VBScript文件

有了这个VBScript文件,开发程序就容易多了,加入所需要的其他代码,就可以在网页里实现数据库的数据导入

参考文献1张莉,等

SQLServer数据库原理及应用教程〔M〕

北京:清华大学出版社,2003

2梁方明

SQLServer2000数据库编程〔M〕

北京:北京希望电子出版社,2002

3LouisDavidson(美)

SQLServer2000数据库设计权威指南〔M〕

中国电力出版社,2002

[

以上就是关于如何有效的进行数据治理和数据管控全部的内容,包括:如何有效的进行数据治理和数据管控、如何用NavicatforMySql创建数据库与数据表、在网页引用数据库的详细方法(如何引用数据库数据)等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9752596.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-01
下一篇 2023-05-01

发表评论

登录后才能评论

评论列表(0条)

保存