创建有效的大数据模型的6个技巧

创建有效的大数据模型的6个技巧,第1张

创建有效的大数据模型的6个技巧

数据建模是一门复杂的科学,涉及组织企业的数据以适应业务流程的需求。它需要设计逻辑关系,以便数据可以相互关联,并支持业务。然后将逻辑设计转换成物理模型,该物理模型由存储数据的存储设备、数据库和文件组成。

历史上,企业已经使用像SQL这样的关系数据库技术来开发数据模型,因为它非常适合将数据集密钥和数据类型灵活地链接在一起,以支持业务流程的信息需求。

不幸的是,大数据现在包含了很大比例的管理数据,并不能在关系数据库上运行。它运行在像NoSQL这样的非关系数据库上。这导致人们认为可能不需要大数据模型。

问题是,企业确实需要对大数据进行数据建模。

以下是大数据建模的六个提示:

1.不要试图将传统的建模技术强加于大数据

传统的固定记录数据在其增长中稳定且可预测的,这使得建模相对容易。相比之下,大数据的指数增长是不可预测的,其无数形式和来源也是如此。当网站考虑建模大数据时,建模工作应该集中在构建开放和d性数据接口上,因为人们永远不知道何时会出现新的数据源或数据形式。这在传统的固定记录数据世界中并不是一个优先事项。

2.设计一个系统,而不是一个模式

在传统的数据领域中,关系数据库模式可以涵盖业务对其信息支持所需的数据之间的大多数关系和链接。大数据并非如此,它可能没有数据库,或者可能使用像NoSQL这样的数据库,它不需要数据库模式。

正因为如此,大数据模型应该建立在系统上,而不是数据库上。大数据模型应包含的系统组件包括业务信息需求、企业治理和安全、用于数据的物理存储、所有类型数据的集成、开放接口,以及处理各种不同数据类型的能力。

3.寻找大数据建模工具

有商业数据建模工具可以支持Hadoop以及像Tableau这样的大数据报告软件。在考虑大数据工具和方法时,IT决策者应该包括为大数据构建数据模型的能力,这是要求之一。

4.关注对企业的业务至关重要的数据

企业每天都会输入大量的数据,而这些大数据大部分是无关紧要的。创建包含所有数据的模型是没有意义的。更好的方法是确定对企业来说至关重要的大数据,并对这些数据进行建模。

5.提供高质量的数据

如果组织专注于开发数据的正确定义和完整的元数据来描述数据来自何处、其目的是什么等等,那么可以对大数据模型产生更好的数据模型和关系。可以更好地支持支持业务的数据模型。

6.寻找数据的关键切入点

当今最常用的大数据载体之一就是地理位置,这取决于企业的业务和行业,还

有其他用户需要的大数据常用密钥。企业越能够识别数据中的这些常用入口点,就越能够设计出支持企业关键信息访问路径的数据模型。

数据模型三要素是数据结构、数据 *** 作、数据约束。

1、数据结构

是计算机存储、组织数据的方式。数据结构是指相互之间存在一种或多种特定关系的数据元素的集合,即带“结构”的数据元素的集合。。通常情况下,精心选择的数据结构可以带来更高的运行或者存储效率。数据结构往往同高效的检索算法和索引技术有关。

2、数据 *** 作

数据模型中数据 *** 作主要描述在相应的数据结构上的 *** 作类型和 *** 作方式。它是 *** 作算符的集合,包括若干 *** 作和推理规则,用以对目标类型的有效实例所组成的数据库进行 *** 作。

3、数据约束

数据模型中的数据约束主要描述数据结构内数据间的语法、词义联系、他们之间的制约和依存关系,以及数据动态变化的规则,以保证数据的正确、有效和相容。它是完整性规则的集合,用以限定符合数据模型的数据库状态,以及状态的变化。

扩展资料:

数据模型按不同的应用层次分成三种类型:

1、概念模型

一种面向用户、面向客观世界的模型,主要用来描述世界的概念化结构,它是数据库的设计人员在设计的初始阶段,摆脱计算机系统及DBMS的具体技术问题,集中精力分析数据以及数据之间的联系等。

2、逻辑模型

一种面向数据库系统的模型,具体的DBMS所支持的数据模型。此模型既要面向用户,又要面向系统,主要用于数据库管理系统(DBMS)的实现。

3、物理模型

一种面向计算机物理表示的模型,描述了数据在储存介质上的组织结构。每一种逻辑数据模型在实现时都有其对应的物理数据模型。DBMS为了保证其独立性与可移植性,大部分物理数据模型的实现工作由系统自动完成。

参考资料来源:百度百科-数据模型

参考资料来源:百度百科-数据结构

数据库技术是现代信息科学与技术的重要组成部分,是计算机数据处理与信息管理系统的核心。数据库技术研究和解决了计算机信息处理过程中大量数据有效地组织和存储的问题,在数据库系统中减少数据存储冗余、实现数据共享、保障数据安全以及高效地检索数据和处理数据。

随着计算机技术与网络通信技术的发展,数据库技术已成为信息社会中对大量数据进行组织与管理的重要技术手段及软件技术,是网络信息化管理系统的基础。本章主要介绍数据库技术的应用与发展、关系模型的基本概念、关系数据库的设计理论及数据库设计方法等内容,是学习和掌握现代数据库技术的基础。

1.1 数据库技术的发展与应用

从20世纪60年代末期开始到现在,数据库技术已经发展了30多年。在这30多年的历程中,人们在数据库技术的理论研究和系统开发上都取得了辉煌的成就,而且已经开始对新一代数据库系统的深入研究。数据库系统已经成为现代计算机系统的重要组成部分。

1.1.1 数据库技术与信息技术

信息技术(Information Technology,IT)是当今使用频率最高的名词之一,它随着计算机技术在工业、农业以及日常生活中的广泛应用,已经被越来越多的个人和企业作为自己赶超世界潮流的标志之一。而数据库技术则是信息技术中一个重要的支撑。没有数据库技术,人们在浩瀚的信息世界中将显得手足无措。

数据库技术是计算机科学技术的一个重要分支。从20世纪50年代中期开始,计算机应用从科学研究部门扩展到企业管理及政府行政部门,人们对数据处理的要求也越来越高。1968年,世界上诞生了第一个商品化的信息管理系统IMS(Information Management System),从此,数据库技术得到了迅猛发展。在互联网日益被人们接受的今天,Internet又使数据库技术、知识、技能的重要性得到了充分的放大。现在数据库已经成为信息管理、办公自动化、计算机辅助设计等应用的主要软件工具之一,帮助人们处理各种各样的信息数据。

1.1.2 数据库技术的应用及特点

数据库最初是在大公司或大机构中用作大规模事务处理的基础。后来随着个人计算机的普及,数据库技术被移植到PC机(Personal Computer,个人计算机)上,供单用户个人数据库应用。接着,由于PC机在工作组内连成网,数据库技术就移植到工作组级。现在,数据库正在Internet和内联网中广泛使用。

20世纪60年代中期,数据库技术是用来解决文件处理系统问题的。当时的数据库处理技术还很脆弱,常常发生应用不能提交的情况。20世纪70年代关系模型的诞生为数据库专家提供了构造和处理数据库的标准方法,推动了关系数据库的发展和应用。1979年,Ashton-Tate公司引入了微机产品dBase Ⅱ,并称之为关系数据库管理系统,从此数据库技术移植到了个人计算机上。20世纪80年代中期到后期,终端用户开始使用局域网技术将独立的计算机连接成网络,终端之间共享数据库,形成了一种新型的多用户数据处理,称为客户机/服务器数据库结构。现在,数据库技术正在被用来同Internet技术相结合,以便在机构内联网、部门局域网甚至WWW上发布数据库数据。

1.1.3 数据库技术发展历史

数据模型是数据库技术的核心和基础,因此,对数据库系统发展阶段的划分应该以数据模型的发展演变作为主要依据和标志。按照数据模型的发展演变过程,数据库技术从开始到现在短短的30年中,主要经历了三个发展阶段:第一代是网状和层次数据库系统,第二代是关系数据库系统,第三代是以面向对象数据模型为主要特征的数据库系统。数据库技术与网络通信技术、人工智能技术、面向对象程序设计技术、并行计算技术等相互渗透、有机结合,成为当代数据库技术发展的重要特征。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/sjk/9533452.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-29
下一篇 2023-04-29

发表评论

登录后才能评论

评论列表(0条)

保存