大数据常用哪些数据库(什么是大数据库)_工具

通常数据库分为关系型数据库和非关系型数据库，关系型数据库的优势到现在也是无可替代的，比如MySQL、SQLServer、Oracle、DB2、SyBase、Informix、PostgreSQL以及比较小型的Aess等等数据库，这些数据库支持复杂的SQL *** 作和事务机制，适合小量数据读写场景；但是到了大数据时代，人们更多的数据和物联网加入的数据已经超出了关系数据库的承载范围。

大数据时代初期，随着数据请求并发量大不断增大，一般都是采用的集群同步数据的方式处理，就是将数据库分成了很多的小库，每个数据库的数据内容是不变的，都是保存了源数据库的数据副本，通过同步或者异步方式保证数据的一致性，每个库设定特定的读写方式，比如主数据库负责写 *** 作，从数据库是负责读 *** 作，等等根据业务复杂程度以此类推，将业务在物理层面上进行了分离，但是这种方式依旧存在一定的负载压力的问题，企业数据在不断的扩增中，后面就采用分库分表的方式解决，对读写负载进行分离，但是这种实现依旧存在不足，且需要不断进行数据库服务器扩容。

NoSQL数据库大致分为5种类型

1、列族数据库：BigTable、HBase、Cassandra、AmazonSimpleDB、HadoopDB等，下面简单介绍几个

（1）Cassandra：Cassandra是一个列存储数据库，支持跨数据中心的数据复制。它的数据模型提供列索引，log-structured修改，支持反规范化，实体化视图和嵌入超高速缓存。

（2）HBase：ApacheHbase源于Google的Bigtable，是一个开源、分布式、面向列存储的模型。在Hadoop和HDFS之上提供了像Bigtable一样的功能。

（3）AmazonSimpleDB：AmazonSimpleDB是一个非关系型数据存储，它卸下数据库管理的工作。开发者使用Web服务请求存储和查询数据项

（4）ApacheAumulo：ApacheAumulo的有序的、分布式键值数据存储，基于Google的BigTable设计，建立在ApacheHadoop、Zookeeper和Thrift技术之上。

（5）Hypertable：Hypertable是一个开源、可扩展的数据库，模仿Bigtable，支持分片。

（6）AzureTables：WindowsAzureTableStorageService为要求大量非结构化数据存储的应用提供NoSQL性能。表能够自动扩展到TB级别，能通过REST和ManagedAPI访问。

2、键值数据库：Redis、SimpleDB、Scalaris、Memcached等，下面简单介绍几个

（1）Riak：Riak是一个开源，分布式键值数据库，支持数据复制和容错。（2）Redis：Redis是一个开源的键值存储。支持主从式复制、事务，Pub/Sub、Lua脚本，还支持给Key添加时限。

（3）Dynamo：Dynamo是一个键值分布式数据存储。它直接由亚马逊Dynamo数据库实现；在亚马逊S3产品中使用。

（4）OracleNoSQLDatabase：来自Oracle的键值NoSQL数据库。它支持事务ACID（原子性、一致性、持久性和独立性）和JSON。

（5）OracleNoSQLDatabase：具备数据备份和分布式键值存储系统。

（6）Voldemort：具备数据备份和分布式键值存储系统。

（7）Aerospike：Aerospike数据库是一个键值存储，支持混合内存架构，通过强一致性和可调一致性保证数据的完整性。

3、文档数据库：MongoDB、CouchDB、Perservere、Terrastore、RavenDB等，下面简单介绍几个

（1）MongoDB：开源、面向文档，也是当下最人气的NoSQL数据库。

（2）CounchDB：ApacheCounchDB是一个使用JSON的文档数据库，使用Javascript做MapRece查询，以及一个使用>

（3）Couchbase：NoSQL文档数据库基于JSON模型。

（4）RavenDB：RavenDB是一个基于NET语言的面向文档数据库。

（5）MarkLogic：MarkLogicNoSQL数据库用来存储基于XML和以文档为中心的信息，支持灵活的模式。

4、图数据库：Neo4J、InfoGrid、OrientDB、GraphDB，下面简单介绍几个

（1）Neo4j：Neo4j是一个图数据库；支持ACID事务（原子性、独立性、持久性和一致性）。

（2）：一个图数据库用来维持和遍历对象间的关系，支持分布式数据存储。

（3）：是结合使用了内存和磁盘，提供了高可扩展性，支持SPARQ、RDFS和Prolog推理。

5、内存数据网格：Hazelcast、OracleCoherence、TerracottaBigMemorry、GemFire、Infinispan、GridGain、GigaSpaces，下面简单介绍几个

（1）Hazelcast：HazelcastCE是一个开源数据分布平台，它允许开发者在数据库集群之上共享和分割数据。

（2）OracleCoherence：Oracle的内存数据网格解决方案提供了常用数据的快速访问能力，一致性支持事务处理能力和数据的动态划分。

（3）TerracottaBigMemory：来自Terracotta的分布式内存管理解决方案。这项产品包括一个Ehcache界面、Terracotta管理控制台和BigMemory-Hadoop连接器。

（4）GemFire：VmwarevFabricGemFire是一个分布式数据管理平台，也是一个分布式的数据网格平台，支持内存数据管理、复制、划分、数据识别路由和连续查询。

（5）Infinispan：Infinispan是一个基于Java的开源键值NoSQL数据存储，和分布式数据节点平台，支持事务，peer-to-peer及client/server架构。

（6）GridGain：分布式、面向对象、基于内存、SQLNoSQL键值数据库。支持ACID事务。

（7）GigaSpaces：GigaSpaces内存数据网格能够充当应用的记录系统，并支持各种各样的高速缓存场景。

一、创建Mongodb数据库

由于Mongodb不是关系型数据库文件，实际上，它并不存在传统关系型数据库中的所谓“数据库”的概念，但不用担心，当你第一次新增数据时，mongodb就会以collection集合的形式进行保存和新建，而不需要你手工去新建立。下面是例子：

1)列出当前的数据库

MongoDB shell version: 181

connecting to: test

> show dbs

admin 003125GB

local (empty)

可以使用show dbs来列出当前有多少个数据库，上面看到的是有两个，分别是admin和local。

2) 定义新的数据库名

我们通过使用“use new-databasename”的语法去使用一个新的数据库，注意，即使你的数据库还没建立起来，依然可以这样使用，因为mongodb会在真正插入了数据后，才会真正建立起来。

>use mkyongdb

switched to db mkyongdb

> show dbs

admin 003125GB

local (empty)

注意，在use mkyongdb后，mkyongdb实际上还没真正建立起来，只是表明目前是在使用mkyongdb了。

3)保存数据

定义一个collection,名为“users”,然后插入数据，如下：

> dbuserssave( {username:"mkyong"} )

> dbusersfind()

{ "_id" : ObjectId("4dbac7bfea37068bd0987573"), "username" : "mkyong" }

> show dbs

admin 003125GB

local (empty)

mkyongdb 003125GB

可以看到，用dbusersfind()可以找出已插入的数据。这个时候，名为“users”的collection已经建立起来了，同时，数据库mkyongdb也建立起来了。转载，仅供参考。

（1）文档

文档是 MongoDB 中数据的基本单位，类似于关系数据库中的行（但是比行复杂）。多个键及其关联的值有序地放在一起就构成了文档。不同的编程语言对文档的表示方法不同，在JavaScript 中文档表示为：

{“greeting”:“hello,world”}

这个文档只有一个键“greeting”，对应的值为“hello,world”。多数情况下，文档比这个更复杂，它包含多个键/值对。例如：

{“greeting”:“hello,world”,“foo”: 3}

文档中的键/值对是有序的，下面的文档与上面的文档是完全不同的两个文档。

{“foo”: 3 ,“greeting”:“hello,world”}

文档中的值不仅可以是双引号中的字符串，也可以是其他的数据类型，例如，整型、布尔型等，也可以是另外一个文档，即文档可以嵌套。文档中的键类型只能是字符串。

（2）集合

集合就是一组文档，类似于关系数据库中的表。集合是无模式的，集合中的文档可以是各式各样的。例如，{“hello,word”:“Mike”}和{“foo”: 3}，它们的键不同，值的类型也不同，但是它们可以存放在同一个集合中，也就是不同模式的文档都可以放在同一个集合中。既然集合中可以存放任何类型的文档，那么为什么还需要使用多个集合？这是因为所有文档都放在同一个集合中，无论对于开发者还是管理员，都很难对集合进行管理，而且这种情形下，对集合的查询等 *** 作效率都不高。所以在实际使用中，往往将文档分类存放在不同的集合中，例如，对于网站的日志记录，可以根据日志的级别进行存储，Info级别日志存放在Info 集合中，Debug 级别日志存放在Debug 集合中，这样既方便了管理，也提供了查询性能。但是需要注意的是，这种对文档进行划分来分别存储并不是MongoDB 的强制要求，用户可以灵活选择。

可以使用“”按照命名空间将集合划分为子集合。例如，对于一个博客系统，可能包括bloguser 和blogarticle 两个子集合，这样划分只是让组织结构更好一些，blog 集合和bloguser、blogarticle 没有任何关系。虽然子集合没有任何特殊的地方，但是使用子集合组织数据结构清晰，这也是MongoDB 推荐的方法。

（3）数据库

MongoDB 中多个文档组成集合，多个集合组成数据库。一个MongoDB 实例可以承载多个数据库。它们之间可以看作相互独立，每个数据库都有独立的权限控制。在磁盘上，不同的数据库存放在不同的文件中。MongoDB 中存在以下系统数据库。

● Admin 数据库：一个权限数据库，如果创建用户的时候将该用户添加到admin 数据库中，那么该用户就自动继承了所有数据库的权限。

● Local 数据库：这个数据库永远不会被负责，可以用来存储本地单台服务器的任意集合。

● Config 数据库：当MongoDB 使用分片模式时，config 数据库在内部使用，用于保存分片的信息。

MongoDB和MySQL分别是领先的开源NoSQL和关系数据库。哪个最适合您的应用程序？

在1990年代的互联网泡沫时期，用于Web应用程序的一种通用软件堆栈是LAMP，它最初代表Linux（OS），Apache（Web服务器），MySQL（关系数据库）和PHP（服务器编程语言）。MySQL是首选的数据库，主要是因为它是免费的开源代码，并且具有良好的读取性能，非常适合从数据库动态生成网站的“ Web 20”应用程序。

之后，代表MongoDB（文档数据库），Express（Web服务器），AngularJS（前端框架）和Nodejs（后端JavaScript运行时）的MEAN堆栈开始流行。除其他原因外，MEAN堆栈很有吸引力，因为您需要了解的唯一语言是JavaScript。与等效的LAMP堆栈相比，它还需要更少的RAM。

MySQL AB的Monty Widenius和David Axmark最初于1994年开始开发MySQL。产品名称中的“ My”是指Widenius的女儿，而不是英语单词“ my”。MySQL旨在与mSQL（又名Mini）兼容。 SQL），并添加了SQL查询层和开放源代码许可（实际上是专有和GPL双重许可）。MySQL的公共发行版于1996年底开始，并且每年或每两年持续发行一次。MySQL是当前最受欢迎的关系数据库。

Sun Microsystems于2008年以10亿美元的价格收购了MySQL AB，Oracle于2010年收购了Sun。在Oracle收购MySQL的广泛关注中，Widenius在收购Oracle之前就将MySQL 55合并到了MariaDB中。MariaDB努力维护与Oracle MySQL版本的兼容性。

与功能更强大的商业关系数据库（例如Oracle数据库，IBM DB / 2和Microsoft SQL Server）相比，MySQL最初是一个相当低端的关系数据库，尽管它足以成为动态网站的后备存储。多年来，它增加了您希望从关系数据库获得的大多数功能，包括事务，参照完整性约束，存储过程，游标，全文索引和搜索，地理索引和搜索以及群集。

尽管MySQL现在支持“大数据库”功能，例如主从部署，与Memcached一起使用以及水平分片，但它仍通常用于中小型部署。将MySQL扩展到多个从属服务器可以提高读取性能，但是只有主服务器才能接受写请求。

AWS提供了两种形式的MySQL即服务，即Amazon RDS和Amazon Aurora。后者具有更高的性能，可以处理TB级的数据，更新副本的延迟时间更短，并且可以直接与Oracle数据库和SQL Server竞争。

MongoDB是高度可伸缩的 *** 作文档数据库，可在开源版本和商业企业版本中使用，它可以在本地运行或作为托管云服务运行。托管云服务称为MongoDB Atlas。

MongoDB无疑是NoSQL数据库中最受欢迎的数据库。它的文档数据模型为开发人员提供了极大的灵活性，而其分布式体系结构则提供了很好的可伸缩性。因此，通常选择MongoDB用于必须管理大量数据，得益于水平可伸缩性并处理不适合关系模型的数据结构的应用程序。

MongoDB是一个基于文档的存储，在其之上还具有一个基于图形的存储。MongoDB实际上并不存储JSON：它存储BSON（二进制JSON），该扩展了JSON表示（字符串）以包括其他类型，例如int，long，date，浮点，decimal128和地理空间坐标。

MongoDB可以使用数据的类型生成正确的索引类型，从而在数据的单个副本上生成多模式图形，地理空间，B树和全文本索引。MongoDB使您可以在任何文档字段上创建索引。MongoDB 4具有多文档事务，这意味着即使必须标准化数据设计，您仍然可以获得ACID属性。

默认情况下，MongoDB使用动态模式，有时称为无模式。单个集合中的文档不需要具有相同的字段集，并且字段的数据类型可以在集合中的不同文档之间有所不同。您可以随时使用动态模式更改文档结构。

但是，可以使用架构治理。从MongoDB 36开始，MongoDB支持JSON模式验证，您可以在验证器表达式中将其打开。

在LAMP和MEAN堆栈上存在很多变化。例如，您可以在Windows（WAMP）或MacOS（MAMP）上运行而不是Linux OS。您可以运行IIS（WIMP），而不是Windows上的Apache Web服务器。

您可以运行PostgreSQL或SQL Server，而不是LAMP堆栈中的MySQL关系数据库。如果您需要全球分布，则可以运行CockroachDB或Google Cloud Spanner。可以使用Perl或Python代替PHP语言。如果要使用Java或C＃进行编码，则需要考虑单独的堆栈系列。

您可以运行Couchbase或Azure Cosmos DB以获得更好的全局分布，而不是MEAN堆栈中的MongoDB文档数据库。可以使用十二个Nodejs Web服务器框架中的任何一个来代替Express 。除了AngularJS前端框架，您还可以运行Angular 2或React。

选择数据库时要问的最重要的问题是：

这些问题中的几个会趋于缩小数据库的选择范围，但是与制定LAMP堆栈时相比，我们有更多选择。如果您要构建一个应用程序，并且该应用程序必须在99999％的时间内对全世界的用户都具有高度的一致性，那么只有少数几个数据库适合您。如果您的应用程序将在工作日的上午9点至下午6点在一个国家/地区使用，并且可以容忍最终的一致性，那么几乎所有数据库都可以使用，尽管某些数据库对于开发人员和 *** 作员而言更容易，而某些数据库则可以为您的主要使用场景提供更好的性能。

虽然LAMP和MEAN堆栈一次是Web应用程序的良好解决方案，但现在都不是最佳选择。而不是盲目采用任何一种，您应该仔细考虑用例，并找到一种可在可预见的将来为您的应用程序服务的体系结构。

您什么时候需要关系数据库（例如MySQL）用于新应用程序？除了对标准SQL的明显支持外，关系数据库本身将数据强制为具有一致的强类型字段的表格模式，并且只要您利用规范化就可以帮助您避免数据重复。

另一方面，如果您还需要偶尔的自由格式文档，则MySQL和许多其他关系数据库也支持RFC 7159定义的JSON数据。如果您还想使用XML文档和XPath或XSLT，则大多数关系数据库都可以提供这种能力。

您何时需要像MongoDB这样的文档数据库？如果您的主要用例需要允许使用自由格式的数据，在文档之间更改类型的字段，随时间变化的架构或嵌套的文档，则NoSQL数据库将满足要求。另外，如果您的应用程序是用JavaScript编写的，那么文档数据库的JSON格式将很自然。

作者： Martin Heller是InfoWorld的特约编辑和审稿人。他曾担任Web和Windows编程顾问，从1986年至2010年开发数据库，软件和网站。最近，他担任Alpha Software技术和教育副总裁以及Tubifi董事长兼首席执行官。

下载mongodb的windows版本，有32位和64位版本，根据系统情况下载

创建数据库文件的存放位置，比如D:/mongodb/data/db。启动mongodb服务之前需要必须创建数据库文件的存放文件夹，否则命令不会自动创建，而且不能启动成功。默认文件夹路径为c:/data/db使用系统默认文件夹路径时，启动服务无需加--dbpath 参数说明，但文件夹还要手工创建

打开cmd命令行，进入D:/mongodb/bin目录，输入如下的命令启动mongodb服务：

D:/mongodb/bin>mongodexe --dbpath D:/mongodb/data/db

再打开一个cmd输入：D:/mongodb/bin>mongo 127001/admin，或者双击mongoexe，即可进行mongodb的客户端命令 *** 作了:

（1）mysql数据库：

属于关系型数据库。

在不同的引擎上有不同的存储方式。

查询语句是使用传统的sql语句，拥有较为成熟的体系，成熟度很高。

开源数据库的份额在不断增加，mysql的份额页在持续增长。

缺点就是在海量数据处理的时候效率会显著变慢。

（2）mongodb数据库：

非关系型数据库(nosql

),属于文档型数据库。先解释一下文档的数据库，即可以存放xml、json、bson类型系那个的数据。这些数据具备自述性（self-describing），呈现分层的树状数据结构。数据结构由键值(key=>value)对组成。

存储方式：虚拟内存+持久化。

查询语句：是独特的mongodb的查询方式。

适合场景：事件的记录，内容管理或者博客平台等等。

架构特点：可以通过副本集，以及分片来实现高可用。

数据处理：数据是存储在硬盘上的，只不过需要经常读取的数据会被加载到内存中，将数据存储在物理内存中，从而达到高速读写。

成熟度与广泛度：新兴数据库，成熟度较低，nosql数据库中最为接近关系型数据库，比较完善的db之一，适用人群不断在增长。

分析一下mysql和mongodb应用场景

1如果需要将mongodb作为后端db来代替mysql使用，即这里mysql与mongodb

属于平行级别，那么，这样的使用可能有以下几种情况的考量：

(1)mongodb所负责部分以文档形式存储，能够有较好的代码亲和性，json格式的直接写入方便。(如日志之类)

(2)从data

models设计阶段就将原子性考虑于其中，无需事务之类的辅助。开发用如nodejs之类的语言来进行开发，对开发比较方便。

(3)mongodb本身的failover机制，无需使用如mha之类的方式实现。

2将mongodb作为类似redis

，memcache来做缓存db，为mysql提供服务，或是后端日志收集分析。

考虑到mongodb属于nosql型数据库，sql语句与数据结构不如mysql那么亲和

，也会有很多时候将mongodb做为辅助mysql而使用的类redis

memcache

之类的缓存db来使用。

亦或是仅作日志收集分析。

1、启动Mongodb数据库。在自己电脑的E盘、D盘根目录模拟出两个Mongodb的数据库，分别代表旧库和新库。由于Mongodb的部署非常简单，数据文件分别在E:\mongodb\data\db（使用27017端口）和D:\mongodb\data\db（使用27117端口）下。具体如图。

2、连接新库查看其数据情况。通过Mongodb自带的客户端robomongo-100-rc1-windows-x86_64-496f5c2zip，解压后找到Robomongoexe，右击以管理员运行。左图所示界面，要求选择要连接的数据库。

3、连接旧库查看数据情况。同样通过客户端，连接旧库。如下图所示，旧数据库里面含有5条文档数据。下面我们就将旧库中的5条数据通过命令导出。

4、从旧库导出数据。分别导出fileschunks（保存有文档数据，二进制格式）和filesfiles（保存有文件信息），对于文档类数据两个需要分别导出。

5、导入数据到新库。同理，上一步导出的文件，要分别导入。

6、连接新库，查看数据情况。同样通过客户端，连接新库。如下图所示，我们发现5条文档数据已经导入进来。

方法/步骤

打开百度首页，搜索“MongoDB”，如下图所示：

网站主页中，点击“DOWNLOAD MONGODB”，并下载最新稳定版本，如下图所示：

下载下来的是一个msi安装文件，点击进行安装，默认安装到C:\Program File或C:\Program Files (x86)文件夹内，如下图所示：

配置环境变量，右键“我的电脑”->"高级系统设置"->"高级"->"环境变量"，在系统变量中找到Path变量值，进行修改，在末尾追加 ;C:\Program Files (x86)\MongoDB\bin，（当然你也可以将第3步骤中的MongoDB文件夹拷贝到其他磁盘路径下，我就是这样做的），如下图所示：

为了验证环境变量配置成功，打开CMD命令提示符，输入 mongod -help，下面会罗列一些列的配置参数，说明已成功，如下图所示：

在MongoDB文件夹下和bin目录同级目录下，新建一个data文件夹，data文件夹下再分别新建一个db和log文件夹，分别用来存放数据文件和日志文件，如下图所示：

在命令行中输入以下内容

mongod --dbpath "F:\MongoDB\data\db" --logpath

"F:\MongoDB\data\log\MongoDBlog" --install --serviceName "MongoDB"

这里是日志路径和数据路径，具体的路径根据自己数据和日志文件的文件路径相应进行修改，这里MongoDBlog就是开始建立的日志文件，--serviceName "MongoDB" 服务名为MongoDB。这样就在Windows下成功建立了MongoDB的服务，如下图所示：

在“运行”中输入“servicesmsc”，打开“服务”管理界面，可以看到MongoDB这个服务，点击列表中的“MongoDB”，再点击“启动”按钮，就将MongoDB成功启动了

以上就是关于大数据常用哪些数据库(什么是大数据库)全部的内容，包括:大数据常用哪些数据库(什么是大数据库)、如何在MongoDB中建立新数据库和集合、mongodb的基本概念等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/sjk/9780639.html

大数据常用哪些数据库(什么是大数据库)

发表评论

评论列表（0条）