大数据建模一般有哪些步骤

大数据建模一般有哪些步骤,第1张

数据建模也可以称为数据科学项目的过程,也是是我们在做数据分析的时候会经常使用的一种数据分析方法。下面说下大数据建模的几个步骤:

1、数据测量

数据测量包括ECU内部数据获取,车内总线数据获取以及模拟量数据获取,特别是对于新能源汽车电机、逆变器和整流器等设备频率高达100KHz的信号测量,ETAS提供完整的解决方案。

2、大数据管理与分析

目前的汽车嵌入式控制系统开发环境下,人们可以通过各种各样不同的途径(如真实物体、仿真环境、模拟计算等)获取描述目标系统行为和表现的海量数据。

3、虚拟模型建模与校准

基于大数据管理与分析环节对测量数据进行的分析,我们得到了一些参数之间的相互影响关系,以及相关物理变量的特性曲线。

4、测试与验证(XiL)

在测试与验证环节,通常包含模型在环验证(MiL),软件在环验证(SiL),虚拟测试系统验证(VTS)以及硬件在环验证(HiL)四个阶段,ETAS提供COSYM实现在同一软件平台上开展四个环节仿真验证工作。

关于更多数据建模的内容,推荐CDA数据分析师的相关课程,CDA 证书已得到中国成人教育协会的认可和工信部认可,考过 CDA 认证考生可以得到经管之家 CDA 数据分析师中文证书,CDA INSTITUTE 英文证书以及可额外申请工信部数据分析师证书。就业无忧。点击预约免费试听课。

一、获取数据

1、打开 IBM SPSS Modeler 客户端,点击左下角的 Server 按钮,选择要连接的 Modeler Server,这里需要说明的就是如果 SDAP 装在和 Modeler Client 在一台机器,那么就选择 Local Server;

如果不在同一台机器,而是和单独的 Modeler Server 装在一台机器,就选在添加按钮,输入机器的主机名或者 IP 地址,设置登录的用户名和密码,点击完成按钮,如图 7 所示:

2、连接上 Modeler Server 之后,在源选项双击数据库节点,然后就可以添加数据库源节点到数据流工作区,双击节点,在数据项选择添加一个数据库连接,然后 Modeler Client 会将 Modeler Server 所在机器的所有 ODBC 查询出来,找到需要连接的数据库连接信息,输入用户名和密码后,点击连接按钮,选择完成然后进入选择表,这里以 SQL Server 为例,如图 8 所示:

3、点击完成按钮后,在表名列点击选择按钮,选择表名,这里以 dboModeler_Drug1 为例,如图 9 所示:

4、选择表后,节点自动读取表结构。

用同样的方法再添加两个数据库节点,选择 ODBC 为 DB2 和 Oracle, 输入用户名和密码之后,就可以选择要读取数据的表名了。这样就完成了用 Modeler Client 读取数据库数据的 *** 作,然后要进行的就是对数据的处理。

首先利用 Modeler 的 Merge 节点对 DB2 和 Oracle 中的两张表的数据进行合并,处理后的结果是得到的数据一部分来自 DB2 数据库,一部分来自 Oracle 数据库。对于来自 Oracle 数据库的数据,取 3 个字段的值:

对于来自 DB2 数据库的数据,取 4 个字段:

二、数据处理

1、双击记录选项中的 Merge 节点,然后将 DB2 和 Oracle 两个节点与之连接,双击 Merge 节点,可以看到处理后的数据包括来自 DB2 和 Oracle 的 7 个字段:

2、然后需要通过 Modeler 的 Append 节点将 Merge 后的数据追加到来自 SQL Server 数据库的数据。双击记录选项中的 Append 节点,在流工作区中将 Merge 节点和 SQL Server 数据源节点与之连接,这样得到的就是来自三个数据库的数据了。

还可以通过 Modeler 的其他节点对数据进行进一步的处理,比如通过选择节点,可以设置条件来选择需要的数据,或者通过排序节点对某几个列进行排序等等。

三、建模

1、最后要做的就是对处理过的数据进行建模了,首先需要设定一个 Target 列,也就是需要预测的列。

通过 Modeler 的 Type 节点设置 Target 列,在字段选项双击 Type 节点,在流工作区中将 Append 节点与之连接,双击 Type 节点,修改 Drug 列的角色为 Target,其他默认为 Input 。

2、然后就是选择要使用的模型了,这里以神经网络为例,在模型选择中双击神经网络节点,在流工作区中将 Type 节点与之连接,打开神经网络节点,可以看到是通过所有的角色为 Input 的列来预测觉得为 Target 的列,当然可以在这里修改 Input 和 Target,将年龄的角色从 Input 修改为 Target 。

3、点击运行按钮,生成一个新的模型块,该模型块会被自动连接在流工作区,并带有指向创建它的建模节点的链接。要查看模型的详细信息,右键单击模型块并选择浏览(在模型选项板上)或编辑(在工作区上)。

4、双击打开生成的模型块,可以看到哪些值对预测结果的影响最大,线条宽深说明影响越大。

数据库设计需求

1 需求概述

建立完善的数据库结构管理设备的基本参数、运行状态和各种工作计划。

数据库的框架和结构必须根据设备和运行状态而设计,方便提供强大的录入、查询、统计、分析和报表等各种功能 *** 作,较好的反映平台业务的基本情况和运行状况,满足平台的基本要求。

2 外部设计需求

21 标识符和状态

数据库表前缀:根据模块名定义(如用户模块:sys_)

用户名:root

密码:待定

权限:全部

有效时间:开发阶段

说明:系统正式发布后,可能更改数据库用户/密码。

22 使用它的程序

本系统主要利用java作为后端的应用开发工具,使用MySQL作为后台的数据库, Linux或Windows均可作为系统平台。

23 约定

所有命名一定要具有描述性,杜绝一切拼音、或拼音英文混杂的命名方式。

字符集采用 UTF-8,请注意字符的转换。

所有数据表第一个字段都是系统内部使用主键列,自增字段,不可空,名称为:id,确保不把此字段暴露给最终用户。

除特别说明外,所有日期格式都采用date格式。

除特别说明外,所有字段默认都设置不充许为空, 需要设置默认值。

所有普通缩影的命名都是表名加设置缩影的字段名组合,例如用户表User中name字段设置普通所以,则缩影名称命名方式为user_name_index。

24 专门指导

对本系统的开发者、使用这、测试员和维护人员,提出以下参考意见:

在使用数据库时,首先要参考上面的约定内容,做好软件的安装以及表格的建立。

数据库的输入统一采用键盘。对于数据库的使用权限,请参考本系统其他相关文档。

数据库的后台管理员没用等级差异,可根据实际情况添加删除管理员。

25 支持软件

*** 作系统: Linux / Windows

数据库系统:MySQL

查询浏览工具:Navicat Premium

命令行工具:mysql

注意:mysql 命令行环境下对中文支持不好,可能无法书写带有中文的 SQL 语句。

3 结构设计需求

31 概念结构设计需求

概念数据库的设计是进行具体数据库设计的第一步,概念数据库设计的好坏直接影响到逻辑数据库的设计,影响到整个数据库的好坏。

我们已经得到了系统的数据流程图和数据字典,现在就是要结合数据规范化的理论,用一种模型将用户的数据要求明确地表示出来。

概念数据库的设计应该极易于转换为逻辑数据库模式,又容易被用户所理解。概念数据库设计中最主要的就是采用“实体-关系数据”模型来确定数据库的结构。

数据是表达信息的一种重要的量化符号,是信息存在的一种重要形式。数据模型则是数据特征的一种抽象。它描述的是数据的共性,而不是描述个别的数据。一般来说,数据模型包含两方面内容:

数据的静态特性:主要包括数据的基本结构、数据间的关系和数据之间的相互约束等特性。

数据的动态特性:主要包括对数据进行 *** 作的方法。

在数据库系统设计中,建立反映客观信息的数据模型,是设计中最为重要的,也最基本的步骤之一。

数据模型是连接客观信息世界和数据库系统数据逻辑组织的桥梁,也是数据库设计人员与用户之间进行交流的共同基础。概念数据库中采用的实体-关系模型,与传统的数据模型有所不同。“实体-关系”模型是面向现实世界,而不是面向实现方法的,它主要是用使用方便,因而在数据库系统应用的设计中,得到了广泛应用。“实体-关系”模型可以用来说明数据库中实体的等级和属性。

以下是实体-关系模型中的重要标识:

在数据库中存在的实体;

实体的属性;

实体之间的关系;

32 逻辑结构设计需求

物理结构设计需求

1)定义数据库、表及字段的命名规范:

数据库、表及字段的命名要遵守可读性原则。

数据库、表及字段的命名要遵守表意性原则。

数据库、表及字段的命名要遵守长名原则。

2)选择合适的存储引擎:

3)为表中的字段选择合适的数据类型。

4)建立数据库结构

4 运用设计需求

41 表名的命名规范

表名以英文单词、单词缩写、简写、下划线构成,总长度要求小于30位。

42 表字段的命名规范

字段名以英文单词、单词缩写、简写、下划线构成,总长度要求不超过30位。

字段名以名词或名词短语,字段采用单数形式。若表名由多个单词组成,则取各个单词的缩写组成,单词缩写间使用下划线作为分隔。

若某个字段是引用某个表的外键,则字段名应尽量与源表的字段名保持一致,一面混淆。

5 安全保密设计需求

51 防止用户直接 *** 作数据库的方法

通过把关键应用服务器和数据库服务器进行分离,防止用户对数据库服务器的直接 *** 作,保证数据库安全。

52 应用系统的用户口令进行加密

在软件系统中,对于数据的保护、业务 *** 作的许可是通过识别用户身份和权限来完成的。用户口令相比较,相同的话系统将该用户的 *** 作权限分配给用户,用户再根据所分配的权限对系统进行 *** 作。

由以上过程可知,用户口令在传输过程中容易被窃取泄漏,另外如果数据库被非法进入则其中保存的口令能够被非法查看。因此,在传输过程中和数据库中的口令记录字段不应使用明文传递和保存,应该在口令被传递前对其明文口令使用有效的主流技术,对传输数据进行加密部分描述的加密算法进行加密,在加密后传输到系统。系统将用户提交的经过加密的口令数据保存的加密口令进行比较,相一致则进行后续 *** 作。

用Python做数据分析,大致流程如下:

1、数据获取

可以通过SQL查询语句来获取数据库中想要数据。Python已经具有连接sql server、mysql、orcale等主流数据库的接口包,比如pymssql、pymysql、cx_Oracle等。

2、数据存储

企业当中的数据存储,通过通过数据库如Mysql来存储与管理,对于非结构化数据的存储可以使用MongoDB等。对于使用Python进行网络抓取的数据,我们也可以使用pymysql包快速地将其存储到Mysql中去。

3、数据预处理/数据清洗

大多数情况下,原始数据是存在格式不一致,存在异常值、缺失值等问题的,而不同项目数据预处理步骤的方法也不一样。Python做数据清洗,可以使用Numpy和Pandas这两个工具库。

4、数据建模与分析

常见的数据挖掘模型有:分类、聚类、回归等,这些常见的算法模型,Python也有Scikit-learn和Tensorflow工具库来支持。

5、数据可视化分析

在数据可视化方面,Python有Matplotlib、Seaborn、Pyecharts等工具库可用。

两大类数据模型:数据模型分为2类(分属2个不同的层次,在开发和使用数据库中使用不同的模型)。

概念模型,也称信息模型,它是按用户的观点来对数据和信息建模,用于数据库设计。

逻辑模型和物理模型,逻辑模型主要包括:网状模型、层次模型、关系模型、面向对象模型等,按计算机系统的观点对数据建模,用于DBMS实现。

物理模型,是对数据最底层的抽象,描述数据在系统内部的表示方式和存取方法,在磁盘或磁带上的存储方式和存取方法。

概念模型:信息世界中的基本概念。

用途:数据库设计人员和用户之间进行交流的语言。但要考E-R图!

最常用的数据模型:非关系模型,有层次模型和网状模型;关系模型;面向对象模型、对象关系模型。

以上就是关于大数据建模一般有哪些步骤全部的内容,包括:大数据建模一般有哪些步骤、如何通过IBM SPSS Modeler对数据进行处理和建模、需求分析的建模分析方法有哪两种等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/10184142.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-06
下一篇 2023-05-06

发表评论

登录后才能评论

评论列表(0条)

保存