如何设计企业级大数据分析平台_工具

统企业的OLAP几乎都是基于关系型数据库，在面临“大数据”分析瓶颈，甚至实时数据分析的挑战时，在架构上如何应对本文试拟出几个大数据OLAP平台的设计要点，意在抛砖引玉。

突破设计原则

建设企业的大数据管理平台(Big Data Management Platform)，第一个面临的挑战来自历史数据结构，以及企业现有的数据库设计人员的观念、原则。数据关系、ACID在关系数据库几十年的统治时期是久得人心，不少开发人员都有过为文档、设计数据表，或将文档、序列化为二进制文件存入关系数据库的经历。在BDMP之上，我们需要对多种不同的格式的数据进行混合存储，这就必须意识到曾经的原则已经不再适用——One size dosen’t fit all，新的原则——One size fits a bunch

以下是我列出的一些NoSQL数据库在设计上的模式：

文档数据库：数据结构是类JSON，可以使用嵌入(Embed)或文档引用(Reference)的方式来为两个不同的文档对象建立关系;

列簇数据库：基于查询进行设计，有宽行(Wild Rows)和窄行(Skinny Rows)的设计决策;

索引数据库：基于搜索进行设计，在设计时需要考虑对对每个字段内容的处理(Analysis)。

搜索和查询的区别在于，对返回内容的排序，搜索引擎侧重于文本分析和关键字权重的处理上，而查询通常只是对数据进行单列或多列排序返回即可。

数据存储的二八原则

不少企业在解决海量数据存储的问题上，要么是把关系数据库全部往Hadoop上一导入，要么是把以前的非结构化数据如日志、点击流往NoSQL数据库中写入，但最后往往发现前者还是无法解决大数据分析的性能瓶颈，后者也无法回答数据如何发挥业务价值的问题。

在数据的价值和使用上，其实也存在着二八原则：

20%的数据发挥着80%的业务价值;

80%的数据请求只针对20%的数据。

目前来看，不管是数据存储处理、分析还是挖掘，最完整和成熟的生态圈还是基于关系型数据库，比如报表、联机分析等工具;另外就是数据分析人员更偏重于查询分析语言如SQL、R、Python数据分析包而不是编程语言。

企业大数据平台建设的二八原则是，将20%最有价值的数据——以结构化的形式存储在关系型数据库中供业务人员进行查询和分析;而将80%的数据——以非结构化、原始形式存储在相对廉价的Hadoop等平台上，供有一定数据挖掘技术的数据分析师或数据工程师进行下一步数据处理。经过加工的数据可以以数据集市或数据模型的形式存储在NoSQL数据库中，这也是后面要讲到的“离线”与“在线”数据。

理解企业的数据处理需求

数据库到数据仓库，是事务型数据到分析型数据的转变，分析型数据需要包括的是：分析的主题、数据的维度和层次，以及数据的历史变化等等。而对大数据平台来说，对分析的需求会更细，包括：

查询：快速响应组合条件查询、模糊查询、标签

搜索：包括对非结构化文档的搜索、返回结果的排序

统计：实时反映变化，如电商平台的在线销售订单与发货计算出的库存显示

挖掘：支持挖掘算法、机器学习的训练集

针对不同的数据处理需求，可能需要设计不同的数据存储，还需要考虑如何快速地将数据复制到对应的存储点并进行合适的结构转换，以供分析人员快速响应业务的需求。

离线数据与在线数据

根据不同的企业业务，对“离线”的定义其实不一样，在这里离线数据特指在业务场景中适用于“历史数据”的部分。常见的历史数据查询分析一般来自于特定时间段，设计上需要考虑的是将数据存入历史库中时，建立时间索引。另一种情况是某种业务问题的定位或分析，在数据量巨大的情况下，基于Hadoop或Spark等框架编写分析算法并直接在平台上运行，可以大大节约数据导出导入、格式转换与各种分析工具对接的时间。

在线数据处理按照存储和分析的先后顺序，可分为批处理(先存储后分析)和流处理(先分析后存储)两类。Cassandra数据库的设计采用上数据追加写入模式，可以支持实时批处理;流式计算平台则有Apache Storm、Yahoo S4等开源框架，商业平台有Amazon Kenisis(部署在云端)。企业的实时分析需求往往有特定的应用场景，需要对业务和现行系统有深入的理解才能设计出一个合理的架构。

序数据库英文全称为Time Series Database，简称TSDB，是以时间为索引的规律性时间间隔记录的数据库。时序数据库采用特殊数据存储方式，极大提高了时间相关数据的处理能力，相对于关系型数据库它的存储空间减半，查询速度极大的提高。

一、时序数据库是什么

时序数据库全称为时间序列数据库。时间序列数据库指主要用于处理带时间标签（按照时间的顺序变化，即时间序列化）的数据，带时间标签的数据也称为时间序列数据。

时间序列数据主要由电力行业、化工行业、气象行业、地理信息等各类型实时监测、检查与分析设备所采集、产生的数据，这些工业数据的典型特点是：产生频率快（每一个监测点一秒钟内可产生多条数据）、严重依赖于采集时间（每一条数据均要求对应唯一的时间）、测点多信息量大（常规的实时监测系统均有成千上万的监测点，监测点每秒钟都产生数据，每天产生几十GB的数据量）。

二、时序数据库的特点

1、有效处理庞大数据。

2、对重复的部分，Informix TimeSeries只保持一份数据。

3、节省空间50%，有效降低I/O。

4、主键索引更有效。

5、时间序列表头分离的特性不浪费空间。

三、时序数据库和关系型数据库的区别

1、数据压缩情况

关系型数据库将它们的数据按行存储在磁盘上，不同的数据类型彼此相邻，这限制了可以使用什么类型的压缩算法以及可以压缩多少数据。

而时序数据库通常以相同类型的数据点彼此相邻的方式存储数据，这样的话可以使用最佳压缩算法，大大节省了存储成本。

2、数据库架构

关系型数据库底层是定义好模式的，所以对于表本身，不管是修改还是删除某一列，都会影响到数据库的模式，在底层相当于要进行”数据库迁移“。

而时序数据库往往是无模式的，允许快速轻松地添加新字段。

3、可用性和冗余

关系型数据库可以通过集群存储的方式提供高可用性，但它们容易受到网络可用性的影响，如果连接断开，数据收集将停止。

而时序数据库通过收集器的冗余可以确保良好的可用性，时序数据库一般带有存储转发技术，如果发生中断，该技术会在收集器处缓冲数据，当服务器自动重连时，缓冲区最终会同步上传，确保不会丢失数据。

4、数据安全

数据库被黑客和病毒攻击的事件频繁发生，中q的大多数是知名的关系数据库，常见的攻击比如有：SQL注入。

而时序数据库一般不允许通过标准接口插入、更新或删除数据，此外，时序数据库会跟踪所有更改，包括使用访问、配置、安全违规和系统警报。

数据库系统一般由数据库、硬件、软件、人员4个部分组成：

1、数据库是指长期存储在计算机内的，有组织，可共享的数据的集合。数据库中的数据按一定的数学模型组织、描述和存储，具有较小的冗余，较高的数据独立性和易扩展性，并可为各种用户共享。

2、硬件是构成计算机系统的各种物理设备，包括存储所需的外部设备。硬件的配置应满足整个数据库系统的需要。

3、软件包括 *** 作系统、数据库管理系统及应用程序。数据库管理系统是数据库系统的核心软件，是在 *** 作系统的支持下工作，解决如何科学地组织和存储数据，如何高效获取和维护数据的系统软件。其主要功能包括：数据定义功能、数据 *** 纵功能、数据库的运行管理和数据库的建立与维护。

4、人员主要有4类。系统分析员和数据库设计人员，负责应用系统的需求分析和规范说明；应用程序员，负责编写使用数据库的应用程序；最终用户，利用系统的接口或查询语言访问数据库；数据库管理员负责数据库的总体信息控制。

扩展资料：

常见数据库系统

1、MySQL

一个快速的、多线程、多用户和健壮的SQL数据库服务器。MySQL服务器支持关键任务、重负载生产系统的使用，也可以将它嵌入到一个大配置(mass- deployed)的软件中去。

2、SQL Server

Microsoft 公司推出的关系型数据库管理系统。具有使用方便可伸缩性好与相关软件集成程度高等优点。Microsoft SQL Server 是一个全面的数据库平台，使用集成的商业智能 (BI)工具提供了企业级的数据管理。

3、Oracle

Oracle产品系列齐全，几乎囊括所有应用领域，大型，完善，安全，可以支持多个实例同时运行，功能强。能在所有主流平台上运行。完全支持所有的工业标准。采用完全开放策略。可以使客户选择最适合的解决方案。对开发商全力支持。

参考资料来源：百度百科-数据库系统

阿里云致力于以在线公共服务的方式，提供安全、可靠的计算和数据处理能力，让计算和人工智能成为普惠科技。

阿里云服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业，包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户，以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中，阿里云保持着良好的运行纪录。

阿里云在全球各地部署高效节能的绿色数据中心，利用清洁计算为万物互联的新世界提供源源不断的能源动力，目前开服的区域包括中国（华北、华东、华南、香港）、新加坡、美国（美东、美西）、欧洲、中东、澳大利亚、日本。

扩展资料：

阿里云主要产品：

1、d性计算：

云服务器ECS：可d性扩展、安全、稳定、易用的计算服务

块存储：可d性扩展、高性能、高可靠的块级随机存储

专有网络VPC：帮您轻松构建逻辑隔离的专有网络

负载均衡：对多台云服务器进行流量分发的负载均衡服务

d性伸缩：自动调整d性计算资源的管理服务

资源编排：批量创建、管理、配置云计算资源

容器服务：应用全生命周期管理的Docker服务

高性能计算HPC：加速深度学习、渲染和科学计算的GPU物理机

批量计算：简单易用的大规模并行批处理计算服务

E-MapReduce：基于Hadoop/Spark的大数据处理分析服务

2、数据库：

云数据库RDS：完全兼容MySQL，SQLServer，PostgreSQL

云数据库MongoDB版：三节点副本集保证高可用

云数据库Redis版：兼容开源Redis协议的Key-Value类型

云数据库Memcache版：在线缓存服务，为热点数据的访问提供高速响应

PB级云数据库PetaData：支持PB级海量数据存储的分布式关系型数据库

云数据库HybridDB：基于GreenplumDatabase的MPP数据仓库

云数据库OceanBase：金融级高可靠、高性能、分布式自研数据库

数据传输：比GoldenGate更易用，阿里异地多活基础架构

数据管理：比phpMyadmin更强大，比Navicat更易用

3、存储：

对象存储OSS：海量、安全和高可靠的云存储服务

文件存储：无限扩展、多共享、标准文件协议的文件存储服务

归档存储：海量数据的长期归档、备份服务

块存储：可d性扩展、高性能、高可靠的块级随机存储

表格存储：高并发、低延时、无限容量的Nosql数据存储服务

4、网络：

CDN：跨运营商、跨地域全网覆盖的网络加速服务

专有网络VPC：帮您轻松构建逻辑隔离的专有网络

高速通道：高速稳定的VPC互联和专线接入服务

NAT网关：支持NAT转发、共享带宽的VPC网关

2018年6月20日，阿里云宣布联合三大运营商全面对外提供IPv6服务。

5、大数据：

MaxCompute：原名ODPS，是一种快速、完全托管的TB/PB级数据仓库解决方案。

QuickBI：高效数据分析与展现平台，通过对数据源的连接，和数据集的创建，对数据进行即席的分析与查询。并通过电子表格或仪表板功能，以拖拽的方式进行数据的可视化呈现。

大数据开发套件：提供可视化开发界面、离线任务调度运维、快速数据集成、多人协同工作等功能，拥有强大的OpenAPI为数据应用开发者提供良好的再创作生态

DataV数据可视化：专精于业务数据与地理信息融合的大数据可视化，通过图形界面轻松搭建专业的可视化应用，满足您日常业务监控、调度、会展演示等多场景使用需求

关系网络分析：基于关系网络的大数据可视化分析平台，针对数据情报侦察场景赋能，如打击虚假交易，审理保险骗赔，案件还原研判等

推荐引擎：推荐服务框架，用于实时预测用户对物品偏好，支持A/BTest效果对比

公众趋势分析：利用语义分析、情感算法和机器学习，分析公众对品牌形象、热点事件和公共政策的认知趋势

企业图谱：提供企业多维度信息查询，方便企业构建基于企业画像及企业关系网络的风险控制、市场监测等企业级服务

数据集成：稳定高效、d性伸缩的数据同步平台，为阿里云各个云产品提供离线(批量)数据进出通道

分析型数据库：在毫秒级针对千亿级数据进行即时的多维分析透视和业务探索

流计算：流式大数据分析平台，提供给用户在云上进行流式数据实时化分析工具

6、人工智能：

机器学习：基于阿里云分布式计算引擎的一款机器学习算法平台，用户通过拖拉拽的方式可视化的 *** 作组件来进行试验，平台提供了丰富的组件，包括数据预处理、特征工程、算法组件、预测与评估

语音识别与合成：基于语音识别、语音合成、自然语言理解等技术，为企业在多种实际应用场景下，赋予产品“能听、会说、懂你”式的智能人机交互体验

人脸识别：提供图像和视频帧中人脸分析的在线服务，包括人脸检测、人脸特征提取、人脸年龄估计和性别识别、人脸关键点定位等独立服务模块

印刷文字识别：将中的文字识别出来，包括身份z文字识别、门店招牌识别、行驶证识别、驾驶证识别、名片识别等证件类文字识别场景

7、云安全：

服务器安全（安骑士）：由轻量级Agent和云端组成，集检测、修复、防御为一体，提供网站后门查杀、通用Web软件0day漏洞修复、安全基线巡检、主机访问控制等功能，保障服务器安全

DDoS高防IP：云盾DDoS高防IP是针对互联网服务器（包括非阿里云主机）在遭受大流量的DDoS攻击后导致服务不可用的情况下，推出的付费增值服务，用户可以通过配置高防IP，将攻击流量引流到高防IP，确保源站的稳定可靠

Web应用防火墙：网站必备的一款安全防护产品。通过分析网站的访问请求、过滤异常攻击，保护网站业务可用及资产数据安全

加密服务：满足云上数据加密，密钥管理、加解密运算需求的数据安全解决方案

CA证书服务：云上签发Symantec、CFCA、GeoTrustSSL数字证书，部署简单，轻松实现全站>

数据风控：凝聚阿里多年业务风控经验，专业、实时对抗垃圾注册、刷库撞库、活动作弊、论坛灌水等严重威胁互联网业务安全的风险

绿网：智能识别文本、、视频等多媒体的内容违规风险，如涉黄，暴恐，涉政等，省去90%人力成本

安全管家：基于阿里云多年安全实践经验为云上用户提供的全方位安全技术和咨询服务，为云上用户建立和持续优化云安全防御体系，保障用户业务安全

云盾混合云：在用户自有IDC、专有云、公共云、混合云等多种业务环境为用户建设涵盖网络安全、应用安全、主机安全、安全态势感知的全方位互联网安全攻防体系

态势感知：安全大数据分析平台，通过机器学习和结合全网威胁情报，发现传统防御软件无法覆盖的网络威胁，溯源攻击手段、并且提供可行动的解决方案

先知：全球顶尖白帽子和安全公司帮你找漏洞，最私密的安全众测平台。全面体检，提早发现业务漏洞及风险，按效果付费

移动安全：为移动APP提供安全漏洞、恶意代码、仿冒应用等检测服务，并可对应用进行安全增强，提高反破解和反逆向能力。

8、互联网中间件：

企业级分布式应用服务EDAS：以应用为中心的中间件PaaS平台、

消息队列MQ：ApacheRocketMQ商业版企业级异步通信中间件

分布式关系型数据库服务DRDS：水平拆分/读写分离的在线分布式数据库服务

云服务总线CSB：企业级互联网能力开放平台

业务实施监控服务ARMS：端到端一体化实时监控解决方案产品

9、分析：

E-MapReduce：基于Hadoop/Spark的大数据处理分析服务

云数据库HybirdDB：基于GreenplumDatabase的MPP数据仓库

高性能计算HPC：加速深度学习、渲染和科学计算的GPU物理机

大数据计算服务MaxCompute：TB/PB级数据仓库解决方案

分析型数据库：海量数据实时高并发在线分析

开放搜索：结构化数据搜索托管服务

QuickBI：通过对数据源的连接，对数据进行即席分析和可视化呈现。

参考资料：

百度百科-阿里云

一、数据场景 1、表结构简介任何工具类的东西都是为了解决某个场景下的问题，比如Redis缓存系统热点数据，ClickHouse解决海量数据的实时分析，MySQL关系型数据库存储结构化数据。数据的存储则需要设计对应的表结构，清楚的表结构，有助于快速开发业务，和理解系统。表结构的设计通常从下面几个方面考虑：业务场景、设计规范、表结构、字段属性、数据管理。

2、用户场景

例如存储用户基础信息数据，通常都会下面几个相关表结构：用户信息表、单点登录表、状态管理表、支付账户表等。

用户信息表

存储用户三要素相关信息：姓名，手机号，身份z，登录密码，邮箱等。

CREATE TABLE `ms_user_center` ( `id` int(11) NOT NULL AUTO_INCREMENT COMMENT '用户ID', `user_name` varchar(20) NOT NULL COMMENT '用户名', `real_name` varchar(20) DEFAULT NULL COMMENT '真实姓名', `pass_word` varchar(32) NOT NULL COMMENT '密码', `phone` varchar(20) NOT NULL COMMENT '手机号', `email` varchar(32) DEFAULT NULL COMMENT '邮箱', `head_url` varchar(100) DEFAULT NULL COMMENT '用户头像URL', `card_id` varchar(32) DEFAULT NULL COMMENT '身份z号', `user_sex` int(1) DEFAULT '1' COMMENT '用户性别:0-女,1-男', `create_time` datetime DEFAULT NULL COMMENT '创建时间', `update_time` datetime DEFAULT NULL COMMENT '更新时间', `state` int(1) DEFAULT '1' COMMENT '是否可用,0-不可用,1-可用', PRIMARY KEY (`id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='用户表'; 单点登录表

用意是在多个业务系统中，用户登录一次就可以访问所有相互信任的业务子系统，是聚合业务平台常用的解决方案。

CREATE TABLE `ms_user_sso` ( `user_id` int(11) NOT NULL COMMENT '用户ID', `sso_id` varchar(32) NOT NULL COMMENT '单点信息编号ID', `sso_code` varchar(32) NOT NULL COMMENT '单点登录码,唯一核心标识', `log_ip` varchar(32) DEFAULT NULL COMMENT '登录IP地址', `create_time` datetime DEFAULT NULL COMMENT '创建时间', `update_time` datetime DEFAULT NULL COMMENT '更新时间', `state` int(1) DEFAULT '1' COMMENT '是否可用,0-不可用,1-可用', PRIMARY KEY (`user_id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='用户单点登录表'; 状态管理表

系统用户在使用时候可能出现多个状态，例如账户冻结、密码锁定等，把状态聚合到一起，可以更加方便的管理和验证。

CREATE TABLE `ms_user_status` ( `user_id` int(11) NOT NULL COMMENT '用户ID', `account_status` int(1) DEFAULT '1' COMMENT '账户状态：0-冻结,1-未冻结', `real_name_status` int(1) DEFAULT '0' COMMENT '实名认证状态：0-未实名,1-已实名', `pay_pass_status` int(1) DEFAULT '0' COMMENT '支付密码是否设置：0-未设置,1-设置', `wallet_pass_status` int(1) DEFAULT '0' COMMENT '钱包密码是否设置：0-未设置,1-设置', `wallet_status` int(1) DEFAULT '1' COMMENT '钱包是否冻结:0-冻结,1-未冻结', `email_status` int(1) DEFAULT '0' COMMENT '邮箱状态:0-未激活,1-激活', `message_status` int(1) DEFAULT '1' COMMENT '短信提醒开启：0-未开启,1-开启', `letter_status` int(1) DEFAULT '1' COMMENT '站内信提醒开启：0-未开启,1-开启', `emailmsg_status` int(1) DEFAULT '0' COMMENT '邮件提醒开启：0-未开启,1-开启', `create_time` datetime DEFAULT NULL COMMENT '创建时间', `update_time` datetime DEFAULT NULL COMMENT '更新时间', `state` int(1) DEFAULT '1' COMMENT '是否可用,0-不可用,1-可用', PRIMARY KEY (`user_id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='用户状态表'; 支付账户表

用户交易的核心表，存储用户相关的账户资金信息。

CREATE TABLE `ms_user_wallet` ( `wallet_id` int(11) NOT NULL AUTO_INCREMENT COMMENT '钱包ID', `user_id` int(11) NOT NULL COMMENT '用户ID', `wallet_pwd` varchar(32) DEFAULT NULL COMMENT '钱包密码', `total_account` decimal(20,2) DEFAULT '000' COMMENT '账户总额', `usable_money` decimal(20,2) DEFAULT '000' COMMENT '可用余额', `freeze_money` decimal(20,2) DEFAULT '000' COMMENT '冻结金额', `freeze_time` datetime DEFAULT NULL COMMENT '冻结时间', `thaw_time` datetime DEFAULT NULL COMMENT '解冻时间', `create_time` datetime DEFAULT NULL COMMENT '创建时间', `update_time` datetime DEFAULT NULL COMMENT '更新时间', `state` int(1) DEFAULT '1' COMMENT '是否可用,0-不可用,1-可用', PRIMARY KEY (`wallet_id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='用户钱包'; 二、设计规范 1、涉及模块

通过上面几个表设计的案例，可以看到表设计关联到数据库的各个方面知识：数据类型，索引，编码，存储引擎等。表设计是一个很大的命题，不过也遵循一个基本规范：三范式。

2、三范式基础概念

一范式

表的列的具有原子性,不可再分解，即列的信息，不能分解,关系型数据库MySQL、Oracle等自动的满足。

二范式

每个事实的数据记录只会出现一次, 不会冗余, 通常设计一个主键来实现。

三范式

要求一个表中不包含已经存在于其它表的非主键信息，例如部门和员工的信息，员工表包含部门表的主键ID，则可以关联获取相关信息，没必要在员工表保存相关信息。

优缺点对比

范式化设计

范式化结构设计通常更新快，因为冗余数据较少，表结构轻巧，也更好的写入内存中。但是查询起来涉及到关联，代价非常高，非常损耗查询性能。

反范式化设计

所有的数据都在一张表中，避免关联查询，索引的有效性更高，但是数据的冗余性极高。

建议结论

上述的两种设计方式在实际开发中都是不存在的，在实际开发中都是混合使用。比如汇总统计，缓存数据，都会基于反范式化的设计。

三、字段属性

合适的字段类型对于高性能来说非常重要，基本原则如下：简单的类型占用资源更少；在可以正确存储数据的情况下，选最小的数据类型。

1、数据类型选择整数类型

TINYINT、SMALLINT、MEDIUMINT、INT、BIGINT，根据数据类型范围合理选择即可。

实数类型

FLOAT、DOUBLE、DECIMAL，建议资金货币相关类型使用高精度DECIMAL存储，或者把数据成倍扩大为整数，采用BIGINT存储，不过处理相对麻烦。

字符类型

CHAR、VARCHAR，长度不确定建议采用VARCHAR存储，不过VARCHAR类型需要额外开销记录字符串长度。CHAR适合存储短字符，或者定长字符串，例如MD5的加密结构。

时间类型

DATETIME、TIMESTAMP，DATETIME保存大范围的值，精度秒。TIMESTAMP以时间戳的格式，范围相对较小，效率也相对较高，所以通常情况建议使用。

MySQL的字段类型有很多种，可以根据数据特性选择合适的，这里只描述常见的几种类型。

2、基础用法 *** 作数据类型

修改字段类型

ALTER TABLE ms_user_sso MODIFY state CHAR(1) DEFAULT '0' ; ALTER TABLE ms_user_sso MODIFY state INT(1) DEFAULT '1' COMMENT '状态：0不可用,1可用';

修改名称位置

ALTER TABLE ms_user_sso CHANGE log_ip login_ip VARCHAR(32) AFTER update_time ; 索引使用

索引类型：主键索引，普通索引，唯一索引，组合索引，全文索引。这里演示普通索引的 *** 作。MySQL的核心模块，后续详说。

添加索引

ALTER TABLE ms_user_wallet ADD INDEX user_id_index(user_id) ; CREATE INDEX state_index ON ms_user_wallet(state) ;

查看索引

SHOW INDEX FROM ms_user_wallet;

删除索引

DROP INDEX state_index ON ms_user_wallet ;

修改索引

不具有真正意义上的修改，可以把原有的索引删除之后，再次添加索引。

外键关联

用处：外键关联的作用保证多个数据表的数据一致性和完整性，建表时先有主表，后有从表；删除数据表，需要先删从表，再删主表。复杂场景不建议使用，实际开发中用的也不多。

添加外键

ALTER TABLE ms_user_wallet ADD CONSTRAINT user_id_out_key FOREIGN KEY(user_id) REFERENCES ms_user_center(id) ;

删除外键

ALTER TABLE ms_user_wallet DROP FOREIGN KEY user_id_out_key ; 四、表结构管理 1、查看结构 DESC ms_user_status ; SHOW CREATE TABLE ms_user_status ; 2、字段结构添加字段 ALTER TABLE ms_user_status ADD `delete_time` datetime DEFAULT NULL COMMENT '删除时间' ; 删除字段 ALTER TABLE ms_user_status DROP COLUMN delete_time ; 3、修改表名 ALTER TABLE ms_user_center RENAME ms_user_info ; 4、存储引擎存储引擎 SELECT VERSION() ; SHOW ENGINES ;

MySQL 56 支持的存储引擎有InnoDB、MyISAM、Memory、Archive、CSV、BLACKHOLE等。一般默认使用InnoDB，支持事务管理。该模块MySQL核心，后续详解。

修改引擎

数据量大的场景下，存储引擎修改是一个难度极大的 *** 作，容易会导致表的特性变动，引起各种后续反应，后续会详说。

ALTER TABLE ms_user_sso ENGINE = MyISAM ; 5、修改编码

表字符集默认使用utf8，通用，无乱码风险，汉字3字节，英文1字节，utf8mb4是utf8的超集，有存储4字节例如表情符号时使用。

查看编码 SHOW VARIABLES LIKE 'character%'; 修改编码 ALTER TABLE ms_user_sso DEFAULT CHARACTER SET utf8mb4; 五、数据管理 1、增删改查

添加数据

INSERT INTO ms_user_sso ( user_id,sso_id,sso_code,create_time,update_time,login_ip,state ) VALUES ( '1','SSO7637267','SSO78631273612', '2019-12-24 11:56:57','2019-12-24 11:57:01','127001','1' );

更新数据

UPDATE ms_user_sso SET user_id = '1',sso_id = 'SSO20191224',sso_code = 'SSO20191224', create_time = '2019-11-24 11:56:57',update_time = '2019-11-24 11:57:01', login_ip = '127001',state = '1' WHERE user_id = '1';

查询数据

一般情况下都是禁止使用 select *** 作。

SELECT user_id,sso_id,sso_code,create_time,update_time,login_ip,state FROM ms_user_sso WHERE user_id = '1';

删除数据

DELETE FROM ms_user_sso WHERE user_id = '2' ;

不带where条件，就是删除全部数据。原则上不允许该 *** 作，优化篇会详解。TRUNCATE TABLE也是清空表数据，但是占用的资源相对较少。

2、数据安全不可逆加密

这类加密算法，多用来做数据验证 *** 作，比如常见的密码验证。

SELECT MD5('cicada')='94454b1241ad2cfbd0c44efda1b6b6ba' ; SELECT SHA('cicada')='0501746a2e4fd34e1d14015fc4d58309585edc7d'; SELECT PASSWORD('smile')='B4FB95D86DCFC3F33A3852714DC742C77504479D' ; 可逆加密

安全性要求高的系统，需要做三级等保，对数据的安全性极高，数据在存储时必须加密入库，取出时候需要解密，这些就需要可逆加密。

SELECT DECODE(ENCODE('123456','key_salt'),'key_salt') ; SELECT AES_DECRYPT(AES_ENCRYPT('cicada','salt123'),'salt123');

上述数据安全的管理，也可以基于应用系统的服务(代码)层进行处理，相对专业的流程是从数据生成源头处理，规避数据传递过程泄露，造成不必要的风险。

一、数据库通常分为层次式数据库、网络式数据库和关系式数据库三种。而不同的数据库是按不同的数据结构来联系和组织的。

二、所谓数据结构是指数据的组织形式或数据之间的联系。

三、数据结构又分为数据的逻辑结构和数据的物理结构。

数据的逻辑结构是从逻辑的角度(即数据间的联系和组织方式)来观察数据，分析数据，与数据的存储位置无关；

数据的物理结构是指数据在计算机中存放的结构，即数据的逻辑结构在计算机中的实现形式，所以物理结构也被称为存储结构。

四、层次结构模型实质上是一种有根结点的定向有序树(在数学中"树"被定义为一个无回的连通图)。

五、数据库(Database)是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。简单来说是本身可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据进行新增、截取、更新、删除等 *** 作。

看看你要找的这里有没有？

※数据库的概念与用途

？数据库的概念

什么是数据库呢当人们从不同的角度来描述这一概念时就有不同的定义(当然是描述性的)。例如，称数据库是一个"记录保存系统"(该定义强调了数据库是若干记录的集合)。又如称数据库是"人们为解决特定的任务，以一定的组织方式存储在一起的相关的数据的集合"(该定义侧重于数据的组织)。更有甚者称数据库是"一个数据仓库"。当然，这种说法虽然形象，但并不严谨。严格地说，数据库是"按照数据结构来组织、存储和管理数据的仓库"。在经济管理的日常工作中，常常需要把某些相关的数据放进这样"仓库"，并根据管理的需要进行相应的处理。例如，企业或事业单位的人事部门常常要把本单位职工的基本情况(职工号、姓名、年龄、性别、籍贯、工资、简历等)存放在表2063中，这张表就可以看成是一个数据库。有了这个"数据仓库"我们就可以根据需要随时查询某职工的基本情况，也可以查询工资在某个范围内的职工人数等等。这些工作如果都能在计算机上自动进行，那我们的人事管理就可以达到极高的水平。此外，在财务管理、仓库管理、生产管理中也需要建立众多的这种"数据库"，使其可以利用计算机实现财务、仓库、生产的自动化管理。

JMartin给数据库下了一个比较完整的定义：数据库是存储在一起的相关数据的集合，这些数据是结构化的，无有害的或不必要的冗余，并为多种应用服务；数据的存储独立于使用它的程序；对数据库插入新数据，修改和检索原有数据均能按一种公用的和可控制的方式进行。当某个系统中存在结构上完全分开的若干个数据库时，则该系统包含一个"数据库集合"。

数据库的优点

使用数据库可以带来许多好处：如减少了数据的冗余度，从而大大地节省了数据的存储空间；实现数据资源的充分共享等等。此外，数据库技术还为用户提供了非常简便的使用手段使用户易于编写有关数据库应用程序。特别是近年来推出的微型计算机关系数据库管理系统dBASELL， *** 作直观，使用灵活，编程方便，环境适应广泛(一般的十六位机，如IBM/PC/XT，国产长城0520等均可运行种软件)，数据处理能力极强。数据库在我国正得到愈来愈广泛的应用，必将成为经济管理的有力工具。

数据库是通过数据库管理系统(DBMS-DATA BASE MANAGEMENT SYSTEM)软件来实现数据的存储、管理与使用的dBASELL就是一种数据库管理系统软件。

数据库结构与数据库种类

数据库通常分为层次式数据库、网络式数据库和关系式数据库三种。而不同的数据库是按不同的数据结构来联系和组织的。

1数据结构模型

(1)数据结构

所谓数据结构是指数据的组织形式或数据之间的联系。如果用D表示数据，用R表示数据对象之间存在的关系集合，则将DS＝(D，R)称为数据结构。例如，设有一个电话号码簿，它记录了n个人的名字和相应的电话号码。为了方便地查找某人的电话号码，将人名和号码按字典顺序排列，并在名字的后面跟随着对应的电话号码。这样，若要查找某人的电话号码(假定他的名字的第一个字母是Y)，那么只须查找以Y开头的那些名字就可以了。该例中，数据的集合D就是人名和电话号码，它们之间的联系R就是按字典顺序的排列，其相应的数据结构就是DS＝(D，R)，即一个数组。

(2)数据结构种类

数据结构又分为数据的逻辑结构和数据的物理结构。数据的逻辑结构是从逻辑的角度(即数据间的联系和组织方式)来观察数据，分析数据，与数据的存储位置无关。数据的物理结构是指数据在计算机中存放的结构，即数据的逻辑结构在计算机中的实现形式，所以物理结构也被称为存储结构。本节只研究数据的逻辑结构，并将反映和实现数据联系的方法称为数据模型。

目前，比较流行的数据模型有三种，即按图论理论建立的层次结构模型和网状结构模型以及按关系理论建立的关系结构模型。

2层次、网状和关系数据库系统

(1)层次结构模型

层次结构模型实质上是一种有根结点的定向有序树(在数学中"树"被定义为一个无回的连通图)。例如图2064是一个高等学校的组织结构图。这个组织结构图像一棵树，校部就是树根(称为根结点)，各系、专业、教师、学生等为枝点(称为结点)，树根与枝点之间的联系称为边，树根与边之比为1:N，即树根只有一个，树枝有N个。这种数据结构模型的一般结构见图2065所示。

图2064 高等学校的组织结构图图2065 层次结构模型

图2065中，Ri(i＝1，2，…6)代表记录(即数据的集合)，其中R1就是根结点(如果Ri看成是一个家族，则R1就是祖先，它是R2、R3、R4的双亲，而R2、R3、R4互为兄弟)，R5、R6也是兄弟，且其双亲为R3。R2、R4、R5、R6又被称为叶结点(即无子女的结点)。这样，Ri(i＝1，2，…6)就组成了以R1为树根的一棵树，这就是一个层次数据结构模型。

按照层次模型建立的数据库系统称为层次模型数据库系统。IMS(Information Manage-mentSystem)是其典型代表。

(2)网状结构模型

在图2066中，给出了某医院医生、病房和病人之间的联系。即每个医生负责治疗三个病人，每个病房可住一到四个病人。如果将医生看成是一个数据集合，病人和病房分别是另外两个数据集合，那么医生、病人和病房的比例关系就是M:N:P(即M个医生，N个病人，P间病房)。这种数据结构就是网状数据结构，它的一般结构模型如图2067所示。在图中，记录Ri(i＝1，2，8)满足以下条件：

①可以有一个以上的结点无双亲(如R1、R2、R3)。

②至少有一个结点有多于一个以上的双亲。在"医生、病人、病房"例中，"医生集合有若干个结点(M个医生结点)无"双亲"，而"病房"集合有P个结点(即病房)，并有一个以上的"双亲"(即病人)。

图2066 医生、病房和病人之间的关系

图2067 网状结构模型

按照网状数据结构建立的数据库系统称为网状数据库系统，其典型代表是DBTG(Data Base Task Group)。用数学方法可将网状数据结构转化为层次数据结构。

(3)关系结构模型

关系式数据结构把一些复杂的数据结构归结为简单的二元关系(即二维表格形式)。例如某单位的职工关系就是一个二元关系(见表2068)。这个四行六列的表格的每一列称为一个字段(即属性)，字段名相当于标题栏中的标题(属性名称)；表的每一行是包含了六个属性(工号、姓名、年龄、性别、职务、工资)的一个六元组，即一个人的记录。这个表格清晰地反映出该单位职工的基本情况。

表2068 职工基本情况

通常一个m行、n列的二维表格的结构如表2069所示。

表中每一行表示一个记录值，每一列表示一个属性(即字段或数据项)。该表一共有m个记录。每个记录包含n个属性。

作为一个关系的二维表，必须满足以下条件：

(1)表中每一列必须是基本数据项(即不可再分解)。

(2)表中每一列必须具有相同的数据类型(例如字符型或数值型)。

(3)表中每一列的名字必须是唯一的。

(4)表中不应有内容完全相同的行。

(5)行的顺序与列的顺序不影响表格中所表示的信息的含义。

由关系数据结构组成的数据库系统被称为关系数据库系统。

在关系数据库中，对数据的 *** 作几乎全部建立在一个或多个关系表格上，通过对这些关系表格的分类、合并、连接或选取等运算来实现数据的管理。dBASEII就是这类数据库管理系统的典型代表。对于一个实际的应用问题(如人事管理问题)，有时需要多个关系才能实现。用dBASEII建立起来的一个关系称为一个数据库(或称数据库文件)，而把对应多个关系建立起来的多个数据库称为数据库系统。dBASEII的另一个重要功能是通过建立命令文件来实现对数据库的使用和管理，对于一个数据库系统相应的命令序列文件，称为该数据库的应用系统。因此，可以概括地说，一个关系称为一个数据库，若干个数据库可以构成一个数据库系统。数据库系统可以派生出各种不同类型的辅助文件和建立它的应用系统。

数据库的要求与特性

为了使各种类型的数据库系统能够充分发挥它们的优越性，必须对数据库管理系统的使用提出一些明确的要求。

1建立数据库文件的要求

(1)尽量减少数据的重复，使数据具有最小的冗余度。计算机早期应用中的文件管理系统，由于数据文件是用户各自建立的，几个用户即使有许多相同的数据也得放在各自的文件中，因而造成存储的数据大量重复，浪费存储空间。数据库技术正是为了克服这一缺点而出现的，所以在组织数据的存储时应避免出现冗余。

(2)提高数据的利用率，使众多用户都能共享数据资源。

(3)注意保持数据的完整性。这对某些需要历史数据来进行预测、决策的部门(如统计局、银行等)特别重要。

(4)注意同一数据描述方法的一致性，使数据 *** 作不致发生混乱。如一个人的学历在人事档案中是大学毕业，而在科技档案中却是大学程度，这样就容易造成混乱。

(5)对于某些需要保密的数据，必须增设保密措施。

(6)数据的查找率高，根据需要数据应能被及时维护。

2数据库文件的特征

无论使用哪一种数据库管理系统，由它们所建立的数据库文件都可以看成是具有相同性质的记录的集合，因而这些数据库文件都有相同的特性：

(1)文件的记录格式相同，长度相等。

(2)不同的行是不同的记录，因而具有不同的内容。

(3)不同的列表示不同的字段名，同一列中的数据的性质(属性)相同。

(4)每一行各列的内容是不能分割的，但行的顺序和列的顺序不影响文件内容的表达。

3文件的分类

对文件引用最多的是主文件和事物文件。其他的文件分类还包括表文件、备份文件、档案的输出文件等。下面将讲述这些文件。

(1)主文件。主文件是某特定应用领域的永久性的数据资源。主文件包含那些被定期存取以提供信息和经常更新以反映最新状态的记录。典型的主文件有库存文件、职工主文件和收帐主文件等。

(2)事务文件。事务文件包含着作为一个信息系统的数据活动(事务)的那些记录。这些事务被分批以构成事务文件。例如，从每周工资卡上录制下来的数分批存放在一个事务文件上，然后对照工资清单文件进行处理以便打印出工资支票和工资记录簿。

(3)表文件。表文件是一些表格。之所以单独建立表文件而不把表设计在程序中是为了便于修改。例如，一个公用事业公司的税率表或国内税务局的税率就可以存储在表中文件。

(4)备用文件。备用文件是现有生产性文件的一个复制品。一旦生产性文件受到破坏，利用备用文件就可以重新建立生产性文件。

(5)档案文件。档案文件不是提供当前处理使用的，而是保存起来作为历史参照的。例如，国内税务局(IRS)可能要求检查某个人最近15年的历史。实际上，档案文件恰恰是在给定时间内工作的一个"快照"。

(6)输出文件。输出文件包含将要打印在打印机上的、显在屏幕上的或者绘制在绘图仪上的那些信息的数值映象。输出文件可以是"假脱机的"(存储在辅存设备上)，当输出设备可

用时才进行实际的输出。

以上就是关于如何设计企业级大数据分析平台全部的内容，包括:如何设计企业级大数据分析平台、时序数据库和结构化的关系、数据库系统由哪几个部分组成等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/10153576.html

如何设计企业级大数据分析平台

发表评论

评论列表（0条）