数据仓库中的数据清洗

数据仓库中的数据清洗,第1张

数据仓库在原始数据层ODS层存放原始数据,直接加载原始日志、数据,保留数据的本貌不进行处理

数据清洗 *** 作主要在明细数据DWD层中进行

清洗 *** 作主要有:

1.简单的数据标准化,比如表和字段命名

2.去除空值,默认值填充,比如性别为空的都补0

3.超出范围的数据再处理

SQLSERVER的数据库日志占用很大的空间,下面提供三种方法用于清除无用的数据库日志文件\x0d\x0a方法一: \x0d\x0a1、打开查询分析器,输入命令 \x0d\x0aBACKUP LOG database_name WITH NO_LOG \x0d\x0a2、再打开企业管理器--右键要压缩的数据库--所有任务--收缩数据库--收缩文件--选择日志文件--在收缩方式里选择收缩至xxm,这里会给出一个允许收缩到的最小m数,直接输入这个数,确定就可以了。 \x0d\x0a\x0d\x0a方法二: \x0d\x0a设置检查点,自动截断日志 \x0d\x0a\x0d\x0a一般情况下,SQL数据库的收缩并不能很大程度上减小数据库大小,其主要作用是收缩日志大小,应当定期进行此 *** 作以免数据库日志过大 \x0d\x0a1、设置数据库模式为简单模式:打开SQL企业管理器,在控制台根目录中依次点开Microsoft SQL Server-->SQL Server组-->双击打开你的服务器-->双击打开数据库目录-->选择你的数据库名称(如用户数据库cwbase1)-->然后点击右键选择属性-->选择选项-->在故障还原的模式中选择“简单”,然后按确定保存 \x0d\x0a2、在当前数据库上点右键,看所有任务中的收缩数据库,一般里面的默认设置不用调整,直接点确定 \x0d\x0a3、收缩数据库完成后,建议将您的数据库属性重新设置为标准模式, *** 作方法同第一点,因为日志在一些异常情况下往往是恢复数据库的重要依据 \x0d\x0a\x0d\x0a方法三:通过SQL收缩日志 \x0d\x0a\x0d\x0a把代码复制到查询分析器里,然后修改其中的3个参数(数据库名,日志文件名,和目标日志文件的大小),运行即可 \x0d\x0a\x0d\x0aSET NOCOUNT ON \x0d\x0aDECLARE @LogicalFileName sysname, \x0d\x0a@MaxMinutes INT, \x0d\x0a@NewSize INT \x0d\x0a\x0d\x0aUSE tablename -- 要 *** 作的数据库名 \x0d\x0aSELECT @LogicalFileName = 'tablename_log', -- 日志文件名 \x0d\x0a@MaxMinutes = 10, -- Limit on time allowed to wrap log. \x0d\x0a@NewSize = 1 -- 你想设定的日志文件的大小(M) \x0d\x0a\x0d\x0a-- Setup / initialize \x0d\x0aDECLARE @OriginalSize int \x0d\x0aSELECT @OriginalSize = size \x0d\x0aFROM sysfiles \x0d\x0aWHERE name = @LogicalFileName \x0d\x0aSELECT 'Original Size of ' + db_name() + ' LOG is ' + \x0d\x0aCONVERT(VARCHAR(30),@OriginalSize) + ' 8K pages or ' + \x0d\x0aCONVERT(VARCHAR(30),(@OriginalSize*8/1024)) + 'MB' \x0d\x0aFROM sysfiles \x0d\x0aWHERE name = @LogicalFileName \x0d\x0aCREATE TABLE DummyTrans \x0d\x0a(DummyColumn char (8000) not null) \x0d\x0a\x0d\x0aDECLARE @Counter INT, \x0d\x0a@StartTime DATETIME, \x0d\x0a@TruncLog VARCHAR(255) \x0d\x0aSELECT @StartTime = GETDATE(), \x0d\x0a@TruncLog = 'BACKUP LOG ' + db_name() + ' WITH TRUNCATE_ONLY' \x0d\x0a\x0d\x0aDBCC SHRINKFILE (@LogicalFileName, @NewSize) \x0d\x0aEXEC (@TruncLog) \x0d\x0a-- Wrap the log if necessary. \x0d\x0aWHILE @MaxMinutes >DATEDIFF (mi, @StartTime, GETDATE()) -- time has not expired \x0d\x0aAND @OriginalSize = (SELECT size FROM sysfiles WHERE name = @LogicalFileName) \x0d\x0aAND (@OriginalSize * 8 /1024) >@NewSize \x0d\x0aBEGIN -- Outer loop. \x0d\x0aSELECT @Counter = 0 \x0d\x0aWHILE ((@Counter 回答于 2022-11-16

2.截断事务日志:BACKUP LOG 数据库名WITH NO_LOG3.收缩数据库文件(如果不压缩,数据库的文件不会减小企业管理器--右键你要压缩的数据库--所有任务--收缩数据库--收缩文件--选择日志文件--在收缩方式里选择收缩至XXM,这里会给出一个允许收缩到的最小M数,直接输入这个数,确定就可以了--选择数据文件--在收缩方式里选择收缩至XXM,这里会给出一个允许收缩到的最小M数,直接输入这个数,确定就可以了也可以用SQL语句来完成--收缩数据库DBCC SHRINKDATABASE(客户资料)--收缩指定数据文件,1是文件号,可以通过这个语句查询到:select * from sysfilesDBCC SHRINKFILE(1) 代码如下复制代码backup, log, 模式-- 第一步:清空日志DUMP TRANSACTION [YZGA] WITH NO_LOG-- 第二步:截断事务日志BACKUP LOG [YZGA] WITH NO_LOG-- 第三步:收缩数据库尽管可用该选项手动截断事务日志,但是我们极力建议您不要这样做,因为这会将日志链断开。在下一次完整备份或完整差异备份之前,将无法为数据库提供媒体故障保护。只在非常特殊的情况下才手动截断日志,并立即创建数据备份。 删除日志方法二1、进入企业管理器,选中数据库,比如it,所有任务->分离数据库。2、如果数据库正在连接使用,要先点清除,才可以选确定。3、到数据库文件的存放目录,将it_log.LDF文件删除,不放心可以先拷到别的地方。4、进入企业管理器,数据库->所有任务->附加数据库。5、选择it_Data.MDF,这个时候你会看见日志文件这项是一个红叉,不要紧点确定。6、此时数据库就会提示你该数据库无日志是否创建一个新的,确定就是了。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/6670771.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-26
下一篇 2023-03-26

发表评论

登录后才能评论

评论列表(0条)

保存