数据科学家如何选择mysql、mongodb等数据库_工具

我觉得首先得根据

业务场景

来决定，无论选择哪种数据库最终都是为了解决实际问题的。其次再考虑

成本

，开发人员对数据库的

熟练度，维护难易程度。

一、业务场景

问题上说的两种数据库区别还是蛮大的，mysql是传统关系型数据库，在处理小型系统和关系型数据时有很多的优点，什么支持多语言，开源，免费等等百度上就有很多。目前很多中小型公司都是用mysql。如果数据量大，对安全性能要求高，还不差钱的公司可以选择另外一种关系型数据库Oracle。monogoDB是非关系型的nosql数据库，属于文档型数据库，存储是以json、String等key-value键值对形式。通常用的较多的nosql数据库是redis。monodb使用的少（个人觉得）。这类非关系型数据库通常用来存储一些不会经常修改的数据，用来做缓存使用。另外还有使用monogodb开发商城的购物车功能。

二、使用成本

mysql、redis、monogodb都是可以免费使用，成本应该只有服务器存储空间成本，而oracle公司使用的话是需要缴费的。

三、工程师成本

这个我觉得还是传统的关系型数据库使用的人多，相应的资料也多。用起来应该能更快上手。应该没有后端工程师不会使用mysql、oracle等关系型数据库的。

四、维护难易程度

对于数据量在百万级以内的话维护成本差不多，如果再大mysql数据库就需要使用分库分表了。后期如果数据大数据处理的话，我认为nosql数据库更有优势。

MySQL是一种开放源代码的关系型数据库管理系统（RDBMS），MySQL数据库系统使用最常用的数据库管理语言--结构化查询语言（SQL）进行数据库管理。

由于MySQL是开放源代码的，因此任何人都可以在General Public License的许可下下载并根据个性化的需要对其进行修改。MySQL因为其速度、可靠性和适应性而备受关注。大多数人都认为在不需要事务化处理的情况下，MySQL是管理内容最好的选择。

扩展资料：

mysql的使用说明：

1、如果是用 MySQL + Apache，使用的又是 FreeBSD 网络 *** 作系统的话，安装时候你应按注意到FreeBSD的版本问题，在 FreeBSD 的 30 以下版本来说，MySQL Source 内含的 MIT-pthread 运行是正常的，但在这版本以上，你必须使用 native threads，也就是加入一个 with-named-thread-libs=-lc_r 的选项。

2、如果在 COMPILE 过程中出了问题，请先检查你的 gcc版本是否在 281 版本以上，gmake 版本是否在375以上。

3、如果不是版本的问题，那可能是你的内存不足，请使用 /configure--with-low-memory 来加入。

4、如果要重新做你的 configure，那么你可以键入 rm configcache 和 make clean 来清除记录。

5、把 MySQL 安装在 /usr/local 目录下，这是缺省值，您也可以按照你的需要设定你所安装的目录。

参考资料：

百度百科——mysql

百度百科——MySQL数据库

大数据，指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

为什么会产生大数据？为什么要使用大数据呢？在这里给大家再通俗的解释一下：

起初，数据量很少的时代，通过表格工具、mysql等关系型数据库（二维表数据库，数据逐行插入）就能够解决数据存储的问题。

但是，随着互联网的飞速发展，产品以及用户的激增，产生了海量的数据。考虑到长足发展，公司会对产品、用户相关的原生数据、埋点数据等进行分析，传统的关系型数据库就无法满足需要，只能通过行式、分布式等数据库来存储这些数据（HBASE、hive等，能够实现集群化，及分配到多台主机上同时计算）。

认识数据可视化

有了数据之后，对数据分析就是成了最关键的环节，海量的数据让用户通过逐条查看是不可行的，图像化才是有效的解决途径。少量的数据可以通过表格工具生成图表、tou视表的方式进行分析，但是大数据的分析就需要借助专门的可视化工具了，常见的可视化工具包括：Tableau、BDP、Davinci、QuickBI、有数等。

大部分商用数据可视化工具的计算、图表展示虽然比较强大，但是却无法做到实时数据快速生成，数据也多为push（固定的范围）的方式，有时候数据还需要二次加工满足可视化产品的规则（商用产品多考虑通用性，无法适用于所有企业的数据规范）。

除此之外，现在很多图表插件的开源化（如：Echart、GoogleChart），以及行业内对数据安全性等的考虑，越来越多的公司也开始进行数据可视化的私有化部署。

数据可视化的实现

数据可视化产品（系统）的结构框架主要分为三层：数据存储层、数据计算层、数据展示层。

1数据存储层

数据存储层在开头已经和大家说过了，在数据可视化产品（系统）中，既支持常规数据（MySQL、CSV等）可视化，也支持大数据（hive、HBASE等）的可视化，满足日常分析人员定性、定量的分析。

在考虑到数据安全的因素，数据存储还会与权限管理相结合，实现不同角色的人员只能访问指定的数据（未来有机会再分享）。

2数据计算层

这里的计算不是平时所说的聚合、排序、分组等计算，解释之前我们先了解一下数据分析的工作流程吧：

产品/运营人员提出数据需求，如“APP一周留存”；

分析师确认需求后需要明确本次分析需要的字段及分析方式；

数仓人员提供整理后的表格（数据模型，多张表join后合成的中间表）；

分析师基于数据模型进行可视化分析。

数仓提供的数据模型主要分为增量、全量数据，不能直接对某个较长范围的数据进行分析，举个例子1月1日、1月2日两天都产生了数据，增量、全量的数据存储方式效果如下：

以上述举例的“APP一周留存”，就需要每天计算一下隔日留存，才能够基于每天的隔日留存计算出一周的留存。分析师每天会有很多任务，大量的基础计算（如每天的隔日留存）就可让电脑自动完成，这里就需要依赖调度功能（你可以理解成一个自动运行公式的工具）。

通过以上内容，我们可以得到多表关联、定时计算就是计算层的主要功能。

3数据展示层

数据展示层分为两部分：

一部分是对看图人的可视化，看图人包括：产品、运营、高层主管等。根据需求方的要求，将数据用适合的图表呈现，比如，趋势相关用折线图、数据明细用表格、留存用漏斗图

另一部分是对作图人的可视化，作图人主要是分析师。让分析师用可视化的 *** 作，来代替尽可能多的SQL语句输入。常见的可视化工具中，可以快捷得将数据模型中的字段拖拽到维度/度量（可理解为X、Y轴）中。

通过可视化产品（系统）结构学习，我们不难看出，实现数据可视化的 *** 作过程包括：数据连接（存储）、制作数据模型（计算）、制作图表（展示）。

如何实现大数据可视化系统中琛魔方大数据分析平台表示正确适当的可视化使得讲故事变得很简单。它也从复杂、枯燥的数据集连接了语言、文化间的代沟。所以不要仅仅是展示数据，而是要用数据讲故事。

1可视化分析

大数据分析的使用者有大数据分析专家，同时还有普通用户，但是他们二者对于大数据分析最基本的要求就是可视化分析，因为可视化分析能够直观的呈现大数据特点，同时能够非常容易被读者所接受，就如同看图说话一样简单明了。

2 数据挖掘算法

大数据分析的理论核心就是数据挖掘算法，各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点，也正是因为这些被全世界统计学家所公认的各种统计方法（可以称之为真理）才能深入数据内部，挖掘出公认的价值。

另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据，如果一个算法得花上好几年才能得出结论，那大数据的价值也就无从说起了。

3 预测性分析

大数据分析最终要的应用领域之一就是预测性分析，从大数据中挖掘出特点，通过科学的建立模型，之后便可以通过模型带入新的数据，从而预测未来的数据。

4 语义引擎

非结构化数据的多元化给数据分析带来新的挑战，我们需要一套工具系统的去分析，提炼数据。

语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。

5数据质量和数据管理。

大数据分析离不开数据质量和数据管理，高质量的数据和有效的数据管理，无论是在学术研究还是在商业应用领域，都能够保证分析结果的真实和有价值。

大数据分析的基础就是以上五个方面，当然更加深入大数据分析的话，还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。

大数据的技术

数据采集： ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。

数据存取：关系数据库、NOSQL、SQL等。

基础架构：云存储、分布式文件存储等。

数据处理：自然语言处理(NLP，Natural Language Processing)是研究人与计算机交互的语言问题的一门学科。

处理自然语言的关键是要让计算机”理解”自然语言，所以自然语言处理又叫做自然语言理解也称为计算语言学。

一方面它是语言信息处理的一个分支，另一方面它是人工智能的核心课题之一。

统计分析：假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析（最优尺度分析）、bootstrap技术等等。

数据挖掘：分类（Classification）、估计（Estimation）、预测（Prediction）、相关性分组或关联规则（Affinity grouping or association rules）、聚类（Clustering）、描述和可视化、Description and Visualization）、复杂数据类型挖掘(Text, Web ,图形图像，视频，音频等)

模型预测：预测模型、机器学习、建模仿真。

结果呈现：云计算、标签云、关系图等。

大数据的处理

1 大数据处理之一：采集

大数据的采集是指利用多个数据库来接收发自客户端（Web、App或者传感器形式等）的数据，并且用户可以通过这些数据库来进行简单的查询和处理工作。

比如，电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据，除此之外，Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

在大数据的采集过程中，其主要特点和挑战是并发数高，因为同时有可能会有成千上万的用户来进行访问和 *** 作，比如火车票售票网站和淘宝，它们并发的访问量在峰值时达到上百万，所以需要在采集端部署大量数据库才能支撑。

并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

2 大数据处理之二：导入/预处理

虽然采集端本身会有很多数据库，但是如果要对这些海量数据进行有效的分析，还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，并且可以在导入基础上做一些简单的清洗和预处理工作。

也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算，来满足部分业务的实时计算需求。

导入与预处理过程的特点和挑战主要是导入的数据量大，每秒钟的导入量经常会达到百兆，甚至千兆级别。

3 大数据处理之三：统计/分析

统计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata，以及基于 MySQL的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop。

统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。

4 大数据处理之四：挖掘

与前面统计和分析过程不同的是，数据挖掘一般没有什么预先设定好的主题，主要是在现有数据上面进行基于各种算法的计算，从而起到预测（Predict）的效果，从而实现一些高级别数据分析的需求。

比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes，主要使用的工具有Hadoop的Mahout等。

该过程的特点和挑战主要是用于挖掘的算法很复杂，并且计算涉及的数据量和计算量都很大，常用数据挖掘算法都以单线程为主。

整个大数据处理的普遍流程至少应该满足这四个方面的步骤，才能算得上是一个比较完整的大数据处理。

以上就是关于数据科学家如何选择mysql、mongodb等数据库全部的内容，包括:数据科学家如何选择mysql、mongodb等数据库、mysql具体有什么用、谁知道把大数据可视化等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/sjk/10172185.html

数据科学家如何选择mysql、mongodb等数据库

发表评论

评论列表（0条）