详细讲解如何用SQLyog来分析MySQL数据库

详细讲解如何用SQLyog来分析MySQL数据库,第1张

SOLyog的下载、安装以及使用很简单。我去了相关网站下载,它只有384K字节大小。它把两个文件(一个可执行文件exe和一个动态链接库文件dll)安装到C:\Program Files\SQLyog路径下。然后运行可执行文件。安装后没有必要再访问该网站了,我访问该网站是得到了一个消息,说它的域名没有设置(configured)、登记、或正在建设中。我不清楚这个问题是暂时的还是一直是这样。该软件是免费的,并且没有标志广告(banner ads),所以它可能是一个特定的尚未最终定型的商业模型。最终可能还是要负费的。数据库、表格(table)和列树(column tree)该程序一启动就开始询问我的登录到MySOL服务器的口令。我只需要输入我的服务器名字、用户id和登录密码。所有其它的设置都是正确的默认值。然后(当我开始其它事务、重启几次、睡了一会之后),我重新运行该程序,这时只需要再次输入我的登录密码。该程序没有保存密码的选项,你可以认为这是该程序的一个bug,也可以说是程序的保密特性。一旦你登录之后,界面就是很值得注意。MySOL服务器上所有的数据库都显示在一个树型控件上。你只能访问你在登录时授权的那个数据库。如果你点开代表授权给你的那个数据库的树型结构,你就可以看到一系列代表表格的节点。点开表格节点后,你就可以看到一系列显示字段名的节点和另一个代表索引的节点集合。索引界面绝对是个好东东,这样你就可以CRUD查询索引和关键字了。这相对前端数据库如Microsoft Access来说是个提高。如果考虑到MySOL刚刚开始提供对主(primary)和非相关(foreign)关键字关系的支持,本程序这部分的设计是很成熟的。在右下方的面板上,有四个标签页,即:结果(Result)、消息(Message)、对象(Object)和历史(History)。在SQLyog FAQ上,有一种观点认为该软件没有正式归档的必要。当然,FAQ(常见问题解答)本身就是一种归档。SQLyog的界面非常直观。我建议你打印一份MySOL文档(包括SQL特殊语法扩展)。我就是这么做的,它只用了一个半英寸的活页封面。最后一步FAQ还让人想到一个让人耳朵起了老茧却又是正确的Occam's Razor准则——一切超出必要的复杂性都是没有必要的。我之所以到处“推销”这个工具,就是因为它可以为我们提供一个可以管理MySOL服务器上许多数据库的、简单的、图形化的界面。它的速度极快,并且它的拷贝很小(可以放在一张软盘上)。SQLyog宣称自己是一个查询分析器,实际上它的功能远远不止这些。

数据库设计

1、数据库需求分析

1)针对超市进销存管理系统,分别对采购部门、销售部门和库存保管部门进行详细的调研和分析,总结出如下的需求信息:

商品按类管理,所以需要有一商品类型信息。

商品必须属于一个商品类型。

如果一个商品类型存在商品,或存在下级商品类型,则该类型不可删除。

需要记录供应商品信息。

在涉及商品数量的地方,要给出相应的单位。

商品销售信息单中要包含登记商品销售数量、单价等信息。

在进货信息中要包含商品供应商等信息。

商品报损要有报损原因。

进货、销售、报损 *** 作要有相应 *** 作员信息。

只有管理员登录之后才可以使用系统。

默认的管理员不可以删除。

进货、销售、库存、报损信息都要可以添加、修改、删除、分类查找。

当进行进货、销售和报损 *** 作后,能相应更新库存。

需要对进货、销售、库存、报损进行分析,总结热门商品。

2)经上述系统功能分析和需求总结,考虑到将来功能的扩展,设计如下的数据项和数据结构:

商品类型信息,包括数据项有:商品类型编号、商品类型名称等。

商品信息,包括的数据项有:商品编号、商品名称、商品介绍、库存量等。

商品单位信息,包括单位编号、单位名称等。

供应商信息,包括供应商名称、介绍等。

进货信息,包括进货商品、数量、单位、单价、进货时间经手人等。

销售信息,包括销售商品、数量、单位、单价、登记时间等。

报损信息,包括报损商品、数量、单位、原因、登记时间等。

管理员信息,包括管理员账号、密码、是否是默认账号等。

2、数据库概念结构设计

本系统根据以上的设计规划出的实体有:商品类型信息实体、商品信息实体、商品单位信息实体、供应商信息实体、进货信息实体、销售信息实体、报损信息实体和管理员信息实体。

1可视化分析

大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。

2 数据挖掘算法

大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统

学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如

果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。

3 预测性分析

大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。

4 语义引擎

非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统的去分析,提炼数据。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。

5数据质量和数据管理。 大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。

大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。

大数据的技术

数据采集: ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

数据存取: 关系数据库、NOSQL、SQL等。

基础架构: 云存储、分布式文件存储等。

据处理: 自然语言处理(NLP,Natural Language

Processing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机”理解”自然语言,所以自然语言处理又叫做自然语言理

解也称为计算语言学。一方面它是语言信息处理的一个分支,另一方面它是人工智能的核心课题之一。

统计分析:

假设检验、显著性检验、差异分析、相关分析、T检验、 方差分析 、

卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、

因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。

据挖掘: 分类

(Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity

grouping or association rules)、聚类(Clustering)、描述和可视化、Description and

Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)

模型预测 :预测模型、机器学习、建模仿真。

结果呈现: 云计算、标签云、关系图等。

大数据的处理

1 大数据处理之一:采集

数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的

数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除

此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时

有可能会有成千上万的用户

来进行访问和 *** 作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间

进行负载均衡和分片的确是需要深入的思考和设计。

2 大数据处理之二:导入/预处理

虽然采集端本身会有很多数据库,但是如果要对这些

海量数据进行有效的分析,还是应该将这

些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使

用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。

导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。

3 大数据处理之三:统计/分析

计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通

的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于

MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。

统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。

4 大数据处理之四:挖掘

前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数

据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于

统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并

且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。

整个大数据处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理。

在当今的大数据时代,数据的重要性愈发明显。然而有了数据并不意味着就有了一切。很多时候大数据能给出结论,但给不了解释。只有把数据通过可视化效果呈现出来,并对其进行分析,才能找出真正的答案。然而每一个问题都不止一面,当我们面对复杂的数据问题时,核心是把数据关联起来。

在此之后,才可以说进行关联分析。关联分析(规则)即挖掘关联现象,从大量数据当中发现事物、特征或者数据之间的,频繁出现的相互依赖关系和关联关系。关联关系包含简单关联、时序关联及因果关联等,这些关联有的产生于经验之中,但并不总是事先知道,而是通过数据库中数据的关联分析获得的,其对商业决策具有重要的价值,常用于实体商店或电商的跨品类推荐,购物车联合营销,货架布局陈列,联合促销,市场营销等,来达到关联项互相销量提升与共赢,提升用户体验,减少上货员与用户投入时间,寻找高潜用户。

怎样快速地把数据拿来做一个整合,又很快地呈现出来,是非常重要的。数据分析挖掘很重要,但有时一些应用场景和分析挖掘不一定有太大关系。举个例子,假设某地发生了一个大地震,在这个灾难性事件中,最重要的不是预测,而是诊断,让你了解现在的情况是什么,未来要朝哪个方向走。这就需要数据的整合与呈现。分析的力量是你能够对整个流程进行分析,而不是某个环节。你可以看到真正的故事在于快速关联不同的数据源。

过去我们谈大数据分析包含了数据采集、清洗、分析和展现,今天谈的好像是关联、分析和展现,那么是不是大数据分析的理念变了呢?的确是一个比较大的概念上的转换。从信息的角度看,每个数据都有价值,获得的数据越多越好,有些系统通过清洗或是数据处理,可能把一些价值去除掉了。另外,过去是ETL,也就是数据抽取、转换和上载。现在所谓的转换,是在关联引擎里面做的。数据抽取出来,然后上传,再做转换,也就是ELT。ELT对比ETL,速度要快很多。

数据科学是一门应用学科,需要系统提升数据获取、数据分析、数据可视化、机器学习的水平。下面就简单提供一个数据分析入门的路径:

第一阶段:Excel数据分析

每一位数据分析师都脱离不开Excel。excel是日常工作中最常用的工具,如果不考虑性能和数据量,可以应付绝大部分分析工作。虽然现在机器学习满地走,Excel依旧是无可争议的第一工具。

第二阶段:SQL数据库语言

作为数据分析人员,首先要知道如何去获取数据,其中最常见的就是从关系型数据库中取数,因此可以不会R,不会python,但是不能不会SQL。DT时代,数据正在呈指数级增长。Excel对十万条以内的数据处理起来没有问题,但是往小处说,但凡产品有一点规模,数据都是百万起。这时候就需要学习数据库。

第三阶段:数据可视化&商业智能

数据可视化能力已经越来越成为各岗位的基础技能。领英的数据报告显示,数据可视化技能在历年年中国最热门技能中排名第一。

学习数据分析可以到CDA数据分析认证中心了解一下,CDA是大数据和人工智能时代面向国际范围全行业的数据分析专业人才职业简称,具体指在互联网、金融、咨询、电信、零售、医疗、旅游等行业专门从事数据的采集、清洗、处理、分析并能制作业务报告、提供决策的新型数据人才。

以上就是关于详细讲解如何用SQLyog来分析MySQL数据库全部的内容,包括:详细讲解如何用SQLyog来分析MySQL数据库、如何做好数据库需求分析、如何对百万级的数据进行数据分析等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9738111.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-01
下一篇 2023-05-01

发表评论

登录后才能评论

评论列表(0条)

保存