大数据建模一般有哪些步骤_工具

数据建模也可以称为数据科学项目的过程，也是是我们在做数据分析的时候会经常使用的一种数据分析方法。下面说下大数据建模的几个步骤：

1、数据测量

数据测量包括ECU内部数据获取，车内总线数据获取以及模拟量数据获取，特别是对于新能源汽车电机、逆变器和整流器等设备频率高达100KHz的信号测量，ETAS提供完整的解决方案。

2、大数据管理与分析

目前的汽车嵌入式控制系统开发环境下，人们可以通过各种各样不同的途径(如真实物体、仿真环境、模拟计算等)获取描述目标系统行为和表现的海量数据。

3、虚拟模型建模与校准

基于大数据管理与分析环节对测量数据进行的分析，我们得到了一些参数之间的相互影响关系，以及相关物理变量的特性曲线。

4、测试与验证(XiL)

在测试与验证环节，通常包含模型在环验证(MiL)，软件在环验证(SiL)，虚拟测试系统验证(VTS)以及硬件在环验证(HiL)四个阶段，ETAS提供COSYM实现在同一软件平台上开展四个环节仿真验证工作。

关于更多数据建模的内容，推荐CDA数据分析师的相关课程，CDA 证书已得到中国成人教育协会的认可和工信部认可，考过 CDA 认证考生可以得到经管之家 CDA 数据分析师中文证书，CDA INSTITUTE 英文证书以及可额外申请工信部数据分析师证书。就业无忧。点击预约免费试听课。

一、获取数据

1、打开 IBM SPSS Modeler 客户端，点击左下角的 Server 按钮，选择要连接的 Modeler Server，这里需要说明的就是如果 SDAP 装在和 Modeler Client 在一台机器，那么就选择 Local Server；

如果不在同一台机器，而是和单独的 Modeler Server 装在一台机器，就选在添加按钮，输入机器的主机名或者 IP 地址，设置登录的用户名和密码，点击完成按钮，如图 7 所示：

2、连接上 Modeler Server 之后，在源选项双击数据库节点，然后就可以添加数据库源节点到数据流工作区，双击节点，在数据项选择添加一个数据库连接，然后 Modeler Client 会将 Modeler Server 所在机器的所有 ODBC 查询出来，找到需要连接的数据库连接信息，输入用户名和密码后，点击连接按钮，选择完成然后进入选择表，这里以 SQL Server 为例，如图 8 所示：

3、点击完成按钮后，在表名列点击选择按钮，选择表名，这里以 dboModeler_Drug1 为例，如图 9 所示：

4、选择表后，节点自动读取表结构。

用同样的方法再添加两个数据库节点，选择 ODBC 为 DB2 和 Oracle，输入用户名和密码之后，就可以选择要读取数据的表名了。这样就完成了用 Modeler Client 读取数据库数据的 *** 作，然后要进行的就是对数据的处理。

首先利用 Modeler 的 Merge 节点对 DB2 和 Oracle 中的两张表的数据进行合并，处理后的结果是得到的数据一部分来自 DB2 数据库，一部分来自 Oracle 数据库。对于来自 Oracle 数据库的数据，取 3 个字段的值：

对于来自 DB2 数据库的数据，取 4 个字段：

二、数据处理

1、双击记录选项中的 Merge 节点，然后将 DB2 和 Oracle 两个节点与之连接，双击 Merge 节点，可以看到处理后的数据包括来自 DB2 和 Oracle 的 7 个字段：

2、然后需要通过 Modeler 的 Append 节点将 Merge 后的数据追加到来自 SQL Server 数据库的数据。双击记录选项中的 Append 节点，在流工作区中将 Merge 节点和 SQL Server 数据源节点与之连接，这样得到的就是来自三个数据库的数据了。

还可以通过 Modeler 的其他节点对数据进行进一步的处理，比如通过选择节点，可以设置条件来选择需要的数据，或者通过排序节点对某几个列进行排序等等。

三、建模

1、最后要做的就是对处理过的数据进行建模了，首先需要设定一个 Target 列，也就是需要预测的列。

通过 Modeler 的 Type 节点设置 Target 列，在字段选项双击 Type 节点，在流工作区中将 Append 节点与之连接，双击 Type 节点，修改 Drug 列的角色为 Target，其他默认为 Input 。

2、然后就是选择要使用的模型了，这里以神经网络为例，在模型选择中双击神经网络节点，在流工作区中将 Type 节点与之连接，打开神经网络节点，可以看到是通过所有的角色为 Input 的列来预测觉得为 Target 的列，当然可以在这里修改 Input 和 Target，将年龄的角色从 Input 修改为 Target 。

3、点击运行按钮，生成一个新的模型块，该模型块会被自动连接在流工作区，并带有指向创建它的建模节点的链接。要查看模型的详细信息，右键单击模型块并选择浏览（在模型选项板上）或编辑（在工作区上）。

4、双击打开生成的模型块，可以看到哪些值对预测结果的影响最大，线条宽深说明影响越大。

数据库设计需求

1 需求概述

建立完善的数据库结构管理设备的基本参数、运行状态和各种工作计划。

数据库的框架和结构必须根据设备和运行状态而设计，方便提供强大的录入、查询、统计、分析和报表等各种功能 *** 作，较好的反映平台业务的基本情况和运行状况，满足平台的基本要求。

2 外部设计需求

21 标识符和状态

数据库表前缀：根据模块名定义（如用户模块：sys_）

用户名：root

密码：待定

权限：全部

有效时间：开发阶段

说明：系统正式发布后，可能更改数据库用户/密码。

22 使用它的程序

本系统主要利用java作为后端的应用开发工具，使用MySQL作为后台的数据库， Linux或Windows均可作为系统平台。

23 约定

所有命名一定要具有描述性，杜绝一切拼音、或拼音英文混杂的命名方式。

字符集采用 UTF-8，请注意字符的转换。

所有数据表第一个字段都是系统内部使用主键列，自增字段，不可空，名称为：id，确保不把此字段暴露给最终用户。

除特别说明外，所有日期格式都采用date格式。

除特别说明外，所有字段默认都设置不充许为空，需要设置默认值。

所有普通缩影的命名都是表名加设置缩影的字段名组合，例如用户表User中name字段设置普通所以，则缩影名称命名方式为user_name_index。

24 专门指导

对本系统的开发者、使用这、测试员和维护人员，提出以下参考意见：

在使用数据库时，首先要参考上面的约定内容，做好软件的安装以及表格的建立。

数据库的输入统一采用键盘。对于数据库的使用权限，请参考本系统其他相关文档。

数据库的后台管理员没用等级差异，可根据实际情况添加删除管理员。

25 支持软件

*** 作系统： Linux / Windows

数据库系统：MySQL

查询浏览工具：Navicat Premium

命令行工具：mysql

注意：mysql 命令行环境下对中文支持不好，可能无法书写带有中文的 SQL 语句。

3 结构设计需求

31 概念结构设计需求

概念数据库的设计是进行具体数据库设计的第一步，概念数据库设计的好坏直接影响到逻辑数据库的设计，影响到整个数据库的好坏。

我们已经得到了系统的数据流程图和数据字典，现在就是要结合数据规范化的理论，用一种模型将用户的数据要求明确地表示出来。

概念数据库的设计应该极易于转换为逻辑数据库模式，又容易被用户所理解。概念数据库设计中最主要的就是采用“实体-关系数据”模型来确定数据库的结构。

数据是表达信息的一种重要的量化符号，是信息存在的一种重要形式。数据模型则是数据特征的一种抽象。它描述的是数据的共性，而不是描述个别的数据。一般来说，数据模型包含两方面内容：

数据的静态特性：主要包括数据的基本结构、数据间的关系和数据之间的相互约束等特性。

数据的动态特性：主要包括对数据进行 *** 作的方法。

在数据库系统设计中，建立反映客观信息的数据模型，是设计中最为重要的，也最基本的步骤之一。

数据模型是连接客观信息世界和数据库系统数据逻辑组织的桥梁，也是数据库设计人员与用户之间进行交流的共同基础。概念数据库中采用的实体-关系模型，与传统的数据模型有所不同。“实体-关系”模型是面向现实世界，而不是面向实现方法的，它主要是用使用方便，因而在数据库系统应用的设计中，得到了广泛应用。“实体-关系”模型可以用来说明数据库中实体的等级和属性。

以下是实体-关系模型中的重要标识：

在数据库中存在的实体；

实体的属性；

实体之间的关系；

32 逻辑结构设计需求

物理结构设计需求

1）定义数据库、表及字段的命名规范：

数据库、表及字段的命名要遵守可读性原则。

数据库、表及字段的命名要遵守表意性原则。

数据库、表及字段的命名要遵守长名原则。

2）选择合适的存储引擎：

3）为表中的字段选择合适的数据类型。

4）建立数据库结构

4 运用设计需求

41 表名的命名规范

表名以英文单词、单词缩写、简写、下划线构成，总长度要求小于30位。

42 表字段的命名规范

字段名以英文单词、单词缩写、简写、下划线构成，总长度要求不超过30位。

字段名以名词或名词短语，字段采用单数形式。若表名由多个单词组成，则取各个单词的缩写组成，单词缩写间使用下划线作为分隔。

若某个字段是引用某个表的外键，则字段名应尽量与源表的字段名保持一致，一面混淆。

5 安全保密设计需求

51 防止用户直接 *** 作数据库的方法

通过把关键应用服务器和数据库服务器进行分离，防止用户对数据库服务器的直接 *** 作，保证数据库安全。

52 应用系统的用户口令进行加密

在软件系统中，对于数据的保护、业务 *** 作的许可是通过识别用户身份和权限来完成的。用户口令相比较，相同的话系统将该用户的 *** 作权限分配给用户，用户再根据所分配的权限对系统进行 *** 作。

由以上过程可知，用户口令在传输过程中容易被窃取泄漏，另外如果数据库被非法进入则其中保存的口令能够被非法查看。因此，在传输过程中和数据库中的口令记录字段不应使用明文传递和保存，应该在口令被传递前对其明文口令使用有效的主流技术，对传输数据进行加密部分描述的加密算法进行加密，在加密后传输到系统。系统将用户提交的经过加密的口令数据保存的加密口令进行比较，相一致则进行后续 *** 作。

用Python做数据分析，大致流程如下：

1、数据获取

可以通过SQL查询语句来获取数据库中想要数据。Python已经具有连接sql server、mysql、orcale等主流数据库的接口包，比如pymssql、pymysql、cx_Oracle等。

2、数据存储

企业当中的数据存储，通过通过数据库如Mysql来存储与管理，对于非结构化数据的存储可以使用MongoDB等。对于使用Python进行网络抓取的数据，我们也可以使用pymysql包快速地将其存储到Mysql中去。

3、数据预处理/数据清洗

大多数情况下，原始数据是存在格式不一致，存在异常值、缺失值等问题的，而不同项目数据预处理步骤的方法也不一样。Python做数据清洗，可以使用Numpy和Pandas这两个工具库。

4、数据建模与分析

常见的数据挖掘模型有：分类、聚类、回归等，这些常见的算法模型，Python也有Scikit-learn和Tensorflow工具库来支持。

5、数据可视化分析

在数据可视化方面，Python有Matplotlib、Seaborn、Pyecharts等工具库可用。

两大类数据模型：数据模型分为2类（分属2个不同的层次，在开发和使用数据库中使用不同的模型）。

概念模型，也称信息模型，它是按用户的观点来对数据和信息建模，用于数据库设计。

逻辑模型和物理模型，逻辑模型主要包括：网状模型、层次模型、关系模型、面向对象模型等，按计算机系统的观点对数据建模，用于DBMS实现。

物理模型，是对数据最底层的抽象，描述数据在系统内部的表示方式和存取方法，在磁盘或磁带上的存储方式和存取方法。

概念模型：信息世界中的基本概念。

用途：数据库设计人员和用户之间进行交流的语言。但要考E-R图！

最常用的数据模型：非关系模型，有层次模型和网状模型；关系模型；面向对象模型、对象关系模型。

以上就是关于大数据建模一般有哪些步骤全部的内容，包括:大数据建模一般有哪些步骤、如何通过IBM SPSS Modeler对数据进行处理和建模、需求分析的建模分析方法有哪两种等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/10184142.html

大数据建模一般有哪些步骤

发表评论

评论列表（0条）