完整性
完整性指的是数据信息是否存在缺失的情况,数据缺失的情况可能是整个数据记载缺失,也可能是数据中某个字段信息的记载缺失。不完整的数据所能学习的价值就会大大下降,也是数据质量最为基本的一项评估标准。
数据质量的完整性比较简单去评估,一般我们可以通过数据计算中的记载值和仅有值进行评估。例如,网站日志日访问量就是一个记载值,往常的日访问量在 1000 左右,突然某一天降到100了,需求查看一下数据是否存在缺失了。再例如,网站计算地域分布情况的每一个区域名就是一个仅有值,我国包括了32个省和直辖 市,如果计算得到的仅有值小于32,则可以判别数据有可能存在缺失。
共同性
共同性是指数据是否遵从了共同的标准,数据集结是否坚持了共同的格式。
数据质量的共同性首要体现在数据记载的标准和数据是否符合逻辑。标准指的是,一项数据存在它特定的格式,例如手机号码必定是13位的数字,IP地址必定 是由 4个0到255间的数字加上”.”组成的。逻辑指的是,多项数据间存在着固定的逻辑关系,例如PV必定是大于等于UV的,跳出率必定是在0到1之间的。
一般的数据都有着标准的编码规矩,关于数据记载的共同性查验是较为简单的,只需符合标准编码规矩即可,例如区域类的标准编码格式为“北京”而不是“北京市”,我们只需将相应的仅有值映射到标准的仅有值上就可以了。
精确性
精确性是指数据记载的信息是否存在失常或差错。和共同性不一样,存在精确性问题的数据不只是只是规矩上的不共同。最为常见的数据精确性差错就如乱码。其次,失常的大或许小的数据也是不符合条件的数据。
数据质量的精确性可能存在于单个记载,也可能存在于整个数据集,例如数量级记载差错。这类差错则可以运用最大值和最小值的计算量去审理。
一般数据都符合正态分布的规矩,如果一些占比少的数据存在问题,则可以通过比较其他数量少的数据比例,来做出判别。
当然如果计算的数据失常并不明显,但仍然存在着差错,这类值的查看是最为困难的,需求通过凌乱的计算分析对比找到蛛丝马迹,这儿可以凭仗一些数据分析东西,那么具体的数据修改方法就不在这儿介绍了。
及时性
及时性是指数据从发作到可以查看的时间间隔,也叫数据的延时时长。及时性关于数据分析本身要求并不高,但如果数据分析周期加上数据建立的时间过长,就可能导致分析得出的结论失去了学习意义。
1 .制定调查资源整合方案
通过合理编码方式理顺各类数据间的关系,保证不同类别数据的紧密性,完整体现地学资料数据的多源性和空间性。
2.数据库建设标准
根据资源整合方案,利用关系数据库技术和空间数据库技术,建立CO2地质储存调查数据库,有效储存和管理各种空间数据和属性数据,保证数据间的逻辑合理性,达到充分利用调查数据,并快速输出数据的目的。
3.数据质量检查标准及方法
根据资源整合方案,制定数据质量标准,开发相应质量检查软件,对数据进行质量检查,确保入库数据的有效性和合法性。
网络数据库的评价指标不包括系统的质量。网络数据库的评价指标包括六点。1、内容准确无误。
2、范围广深适度。
3、来源权威可信。
4、更新及时规律。
5、检索方便高效。
6、系统稳定可靠。数据和资源共享这两种技术结合在一起,即成为广泛使用的网络数据库。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)