mongodb与hbase

mongodb与hbase,第1张

HBase没有研究过,因为我们公司用Erlang开发,这个数据库直接不支持。

mongodb当时选型的时候部分数据可以给你看看,最后也没有选:

mongodb

一、性能

1在mongodb shell中对单个数据库中未建立索引插入100万条数据时花费1分钟左右时间。建立索引后100W条数据时性能下降不明显。

插入速度 > 10000/s

2使用Tony编写的Erlang-mongodb驱动用编程语言对单个数据库插入100W条数据,每个数据7个字段,没有建立索引的情况下花费大约3分钟。

插入速度 > 5000/s

3使用Tony编写的Erlang-mongodb驱动用编程语言向有3个数据节点2个arbiter的副本集(replica set)插入100W条数据时花费13分钟左右。

插入速度 > 1000/s

4使用Tony编写的Erlang-mongodb驱动用编程语言,有500个并发时,向有3个数据节点2个arbiter的副本集(replica set)插入100W条数据时花费13分钟左右。

插入速度 > 1000/s

5在1000W条数据时对创建索引的信息查询时性能都很不错。

6索引大小大于内存时查询性能会急剧下降。

二、可靠性

1单机可靠性通过journal保证。

journal相当于redo日志,是mongodb存储在磁盘上的 *** 作日志。系统默认每100ms会将 *** 作写入journal文件,journal文件再将 *** 作对内存中的shared view进行修改。系统默认每60s会将内存中的shared view写入硬盘的数据库文件。数据文件由shared view写入数据文件,journal文件中已输出到数据文件的 *** 作会被删除。如果发生非正常关闭,重新打开时mongodb的journal上的写 *** 作会重演。

写 *** 作图解:

默认每100ms(该参数通过启动mongos时de journalCommitInterval设置)将 *** 作写入磁盘上的journal,journal会将 *** 作写入内存中的shared view

默认每60秒(该参数通过启动mongod时使用syscdelay设置)shared view会将数据写入磁盘上的数据文件中,被写入磁盘的 *** 作会从journal中删除

2mongodb通过replica set提高集群的可靠性。

replica set正常运行时在其中由一个primary和若干个secondary和arbiter。仅可以对primary进行读写 *** 作,通过连接上secondary并设置rsslaveOk()后可以对secondary进行读 *** 作。对primary的写 *** 作会自动同步到状态正常的secondary上。

当primary非正常退出时replica set会自动选出新的primary,并可以保持继续运行。在节点切换时会有短时间无法进行写 *** 作。replica set中可以参加选举的节点越多,系统能够保证在更多节点崩溃时继续运行。同一个replica set中具有选举权的节点不能超过七个。

需要注意的地方:

(replica set中增加数据节点似乎会降低写入的速度,还要进一步核实。)

。。。。。。

三、对写入失败的处理

为了减少写 *** 作等待时间,默认情况下写入失败时mongodb不会返回错误信息。

。。。。。。

四、事务

MongoDB只支持对单行记录的原子性修改,并不支持对多行数据的原子 *** 作。通过一些 *** 作步骤,实际上也可以自己实现该事务。 其步骤如下:

。。。。。

五、使用中其他可能遇到的问题

1存储空间占用不断增大

。。。。

因为是之前花了很久实验的结果,公司也不让随便发这些东西,全文不能这里透露,你可以留邮箱,发给你

Copyright © 1999-2020, CSDNNET, All Rights Reserved

Redis

登录

骑行天下_徐鑫

关注

redis和MongoDB比较 转载

2019-07-02 22:00:52

1点赞

骑行天下_徐鑫

码龄3年

关注

Redis技术陷阱

Redis 基于内存,也可以基于磁盘持久化NoSql数据库,使用 c语言编写,常用端口6379

Redis对内存依赖性很强的NoSql数据库,在内存足够的情况下性能出色,但是一般情况下,服务器内存并没有那么多。

一般情况下,Redis会索取大量服务器内存进行存储数据,以达到快速读取查询的效果。当对Redis插入数据后,redis会异步将数据dump到硬盘中,

比如服务器内存是20G,Redi会fork一个进程,并且会占用同样的大小内存,他需要的内存空间瞬间变为20+20=40G,这是内存超过了物理内存的限制,马上会启动虚拟内存,虽然服务器会有虚拟内存,但是那是服务器的虚拟内存,并不是redis自己的虚拟内存。

Linux虚拟内存page很大,IO剧增,dump速度非常慢,整个服务器的性能降到冰点,服务请求会堵塞,严重到服务器崩溃。

对于单台机子,最好是降低redis虚拟内存设置,page可以根据配置进行修改,这个虚拟内存比Linux虚拟内存好多,因为page小很多。

如果Redis既要读又要写,那么最好不要用redis占用大半的内存。

可以设置它的虚拟内存到8G,但是要根据key值大小去衡量,因为key必须在内存中,这样一来就算是启用了虚拟内存,redis占用的实际内存也会超出设想。

官方建议对key小,value很大的数据设置虚拟内存。

另外master/slave不是很成熟,目前只支持主从,Redis在master是非阻塞模式,也就是说在slave执行数据同步的时候,master是可以接受客户端的请求的,并不影响同步数据的一致性,然而在slave端是阻塞模式的,slave在同步master数据时,并不能响应客户端的查询。

可以根据master/slave 的特点,master不dump,只负责写数据,让slaver去dump

Redis如何持久化:持久化就是将内存中的数据写入到硬盘中。

(1):RDB:是将数据写入到临时文件(dumprdb),持久化之后用这个临时文件替换上次持久化文件,达到数据恢复的目的。RDB是间隔异地短时间进行持久化,如果持久化之间redis发生故障,会发生数据丢失,所以这种方式更适合数据要求不严谨的时候,默认开启。

(2):Redis内存淘汰策略:指的是用户存储的一些键可以被redis主动从实例中删除,从而产生miss的情况,内存淘汰是为了更好地使用内存,用一定的缓存miss来换取内存的使用率。① noeviction:默认策略,不删除任意数据,但是内存不够时,会直接返回错误

② Allkeys-lru:从数据集中(包括设置过期时间和未设置过期时间的数据集),优先移除最近未使用的key

③ Volatile-lru:在设置了过期时间的数据集中,优先移除最近未使用的key

④ Allkeys-random:从数据集中(包括设置过期时间和未设置过期时间的数据集),随机移除某个key

⑤ Volatile-random:在设置了过期时间的数据集中,随机移除某个key

Volatile-ttl:在设置了过期时间的数据集中,具有更早过期时间的key优先移除。

Redis有些数据类型:String Hash List Sets ZSets(存放多个值,不可有重复,有顺序,不同的是每个元素都会关联Double类型的分数,redis正是通过分数来为集合中的成员进行从小到大排序),

Redis使用场景:

缓存热数据使用,热数据就是在项目中经常会被查询,但不经常会被修改和删除的数据。

计数器,诸如统计点击数等应用。

队列

位 *** 作(大数据处理),比如统计QQ用户在线。

最新列表

排行榜,使用zadd添加有序集合

Linux虚拟内存:

为了运行比实际物理内存容量还要大的程序,包括Linux在内的所有现代 *** 作系统几乎毫无里外都采用了虚拟内存技术。虚拟内存技术,可让系统看上去具有比实际意义内存大得多的内存空间,并为实现多道程序的执行创造条件。

虚拟内存概念:总所周知,为了对内存中的存储单元进行识别,内存中的每一个存储单元都必须有一个确切的地址。而一台计算机的处理器能访问多大的内存空间就取决于处理器的程序计数器,该计数器字长越长,能访问的空间越大。

例如对于程序计数器位数为32位的处理器来说,他的地址发生器所能发出的地址数目2^32=4G个,于是这个处理器所能访问的最大内存空间就是4G。载计算机技术中,这个值就是处理器的寻址空间或寻址能力。

MongoDB

文档结构的存储方式。能够快捷获取数据

支持GridFS 支持大容量存储,海量数据存储

海量数据下,性能优越

动态查询

全索引支持,拓展到内部对象和内嵌数组

查询记录分析

快速,就地更新

高效存储二进制大对象

复制和支持自动恢复故障

内置Auto-Sharding 自动分片支持云级别拓展性。分片简单

MapReduce 支持复杂聚合

缺点:不支持事务 *** 作,占用硬盘空间大,没有Mysql成熟的维护工具,无法进行关联表查询,不适用于关系多的数据,复杂句和 *** 作通过mapreduce创建,速度慢,模式自由,自由灵活的文件存储格式带来的数据错误,MongoDB在你删除记录后不会在文件系统回收空间,除非删掉数据库,但是空间没有浪费。

分布式文件存储数据库,介于NoSql和关系型数据库之间的一款产品,基于C++编写,具有查询语言、索引、key-value存储结构,MongoDB存储数据是以BSON类型(二进制json)。

Redis(读写快) ---àMongoDB (数据量大、查询统计、缺乏事务支持)àOracle(数据量大、查询统计方便、事务强)

MongoDB适用于表单数据 *** 作、完整性要求不高的系统使用,高性能、易部署、易使用,存储数据非常方便。MongoDB :库->集合 JSON对象记录

区别联系:

(1):性能方面:Redis大于MongoDB、MongoDB支持丰富的数据表达,索引,最类似于关系型数据库,支持查询的语言非常丰富,redis数据结构方面更加丰富,可以存储List/set/Hash/sort Set等集合。

(2):内存空间和数据量大小: MongoDB适合大量数据存储

(3):数据一致性 Redis事务支持比较弱,MongoDB不支持事务

(4):Redis用在数据量较小的 *** 作和运算上,Mongodb主要解决海量数据访问效率问题。

(5)MemCachd 不支持数据持久化,断电或者重启后数据消失,但其稳定性是有保证的,redis支持数据持久化和数据恢复,允许单点故障

1Memcached单个key-value大小有限,一个value最大只支持1MB,而Redis最大支持512MB

2Memcached只是个内存缓存,对可靠性无要求;而Redis更倾向于内存数据库,因此对对可靠性方面要求比较高

3从本质上讲,Memcached只是一个单一key-value内存Cache;而Redis则是一个数据结构内存数据库,支持五种数据类型,因此Redis除单纯缓存作用外,还可以处理一些简单的逻辑运算,Redis不仅可以缓存,而且还可以作为数据库用

4新版本(30)的Redis是指集群分布式,也就是说集群本身均衡客户端请求,各个节点可以交流,可拓展行、可维护性更强大。

关于其原因,在官方的FAQ中,提到有如下几个方面:

1、空间的预分配:为避免形成过多的硬盘碎片,mongodb每次空间不足时都会申请生成一大块的硬盘空间,而且申请的量从64M、128M、256M那 样的指数递增,直到2G为单个文件的最大体积。随着数据量的增加,你可以在其数据目录里看到这些整块生成容量不断递增的文件。

2、字段名所占用的空间:为了保持每个记录内的结构信息用于查询,mongodb需要把每个字段的key-value都以BSON的形式存储,如果 value域相对于key域并不大,比如存放数值型的数据,则数据的overhead是最大的。一种减少空间占用的方法是把字段名尽量取短一些,这样占用 空间就小了,但这就要求在易读性与空间占用上作为权衡了。

3、删除记录不释放空间:这很容易理解,为避免记录删除后的数据的大规模挪动,原记录空间不删除,只标记“已删除”即可,以后还可以重复利用。

4、可以定期运行dbrepairDatabase()来整理记录,但这个过程会比较缓慢

MongoDB没有如MySQL那样成熟的维护工具,这对于开发和IT运营都是个值得注意的地方。

首先到下面的工具原料中的mongodb的官网下载对应你系统的安装包,拷贝到你的linux系统上面,如果有网络可以直接用wget下载

解压对应的安装包

命令如下:

tar zxf mongodb-linux-i686-202tgz

因为mongodb不需要像别的数据库那样繁琐的配置解压后放到惯例的/usr/local目录下面,当然你可以放到任何地方,放到/usr/local下面方便管理

命令如下:

mv mongodb-linux-i686-202/ /usr/local/mongodb

然后为mongodb创建数据库存放的位置和日志文件,默认是在/data/db下面,同样为了方便就在mongodb下面建立了相应的目录

进到mongodb下面的bin目录下查看mongodb的帮助文档和我们用到的启动参数

启动mongodb数据库,对应的参数说明用绿色表明了

为了安全期间建议关闭28017端口防止信息外泄

做好上面的 *** 作就可以进入mongodb的客户端开始你的mongodb之旅了

步骤阅读

原因是mongodb设计的本身机制问题造成的。

首先,mongodb在创建数据文件时,会根据64M,128M,256M递增的方式产生数据文件,最大数据文件为2G,增大到2G之后,后面新增的数据文件都占用2G空间。

当删除某一个表的数据时,mongodb会标记你删除该表所在数据文件位置为:该部分的数据已经删除,但是不会释放该数据文件所占用的空间,当有新的数据进来之后,会将数据分配到该数据文件中。

一方面是:删除文件后不产生多余的数据碎片,

另一方面不做数据的大规模迁移,减少mongodb内部的IO *** 作。

所以在删除数据表之后,会发现系统空间并没有释放,从mongodb本身看,空间已经释放了,被删除数据的空间依然可用;

但从系统角度看,空间没有释放,并不会影响数据的存储。

解压缩即可执行

tar zxvf mongodb-linux-x86_64-202tgz

cd /usr/mongodb-linux-x86_64-202/bin

但是在运行前,需要创建mongodb需要的存放数据和日志的目录:

sudo mkdir -p /data/db/journal

sudo chmod -R 777 /data/db/

启动mongodb server

/mongod -journal -maxConns=2400 -rest

-journal 代表要写日志,-maxConns=2400代表mongodb 可以接受2400个tcp连接,-rest代表可以允许客户端通过rest API访问mongdb server

还可以使用参数—quiet启动可以指定安静模式减少记录的项目数,注意使用该参数必须要同时指定日志路径,比如:

—quiet —logpath /data/db/journal/mongdblog

修改系统允许的最大连接数

上面的最大连接数目的限制原因是Linux系统默认一个进程最大文件打开数目为1024,用ulimit -a 命令检查,可以看到下面这行:

open files (-n) 1024

修改/etc/security/limitsconf 配置文件。

使用命令:sudo gedit /etc/security/limitsconf

在文件中增加

soft nofile 3000

hard nofile 20000

root soft nofile 3000

root hard nofile 20000

表示该配置对所有用户均有效,root用户要特别加两行。

硬限制通常是根据系统硬件资源状况(主要是系统内存)计算出来的系统最多可同时打开的文件数量,软限制是在这个基础上进一步的限制。因此软限制数目要低于硬限制。

nofile表示 max number of open files

重新启动计算机,然后再用ulimit -a 命令查看:

open files (-n) 3000

已经生效了。现在再启动mongodb server,问题解决

设置开机启动

在/etc/initd/目录下新建脚本文件mongodb

#!/bin/sh

### BEGIN INIT INFO

# Provides: mongodb

# Required-Start:

# Required-Stop:

# Default-Start: 2 3 4 5

# Default-Stop: 0 1 6

# Short-Description: mongodb

# Description: mongo db server

### END INIT INFO

/lib/lsb/init-functions

PROGRAM=/usr/mongodb-linux-x86_64-202/bin/mongod

MONGOPID=`ps -ef | grep 'mongod' | grep -v grep | awk '{print $2}'`

test -x $PROGRAM || exit 0

case "$1" in

start)

ulimit -n 3000

log_begin_msg "Starting MongoDB server"

$PROGRAM --fork --quiet -journal -maxConns=2400 -rest --logpath /data/db/journal/mongdblog

log_end_msg 0

;;

stop)

log_begin_msg "Stopping MongoDB server"

if [ ! -z "$MONGOPID" ]; then

kill -15 $MONGOPID

fi

log_end_msg 0

;;

status)

;;

)

log_success_msg "Usage: /etc/initd/mongodb {start|stop|status}"

exit 1

esac

exit 0

请注意,用sudo chmod +x /etc/initd/mongodb 命令允许该脚本可被执行

接着运行下面的命令注册开机脚本:

update-rcd mongodb defaults

Adding system startup for /etc/initd/mongodb

/etc/rc0d/K20mongodb -> /initd/mongodb

/etc/rc1d/K20mongodb -> /initd/mongodb

/etc/rc6d/K20mongodb -> /initd/mongodb

/etc/rc2d/S20mongodb -> /initd/mongodb

/etc/rc3d/S20mongodb -> /initd/mongodb

/etc/rc4d/S20mongodb -> /initd/mongodb

/etc/rc5d/S20mongodb -> /initd/mongodb

你也可以通过update-rcd -f mongodb remove 删除

重新启动,通过ps -def | grep mongod 可以查看到自启动的服务进程,然后可以通过下面的命令关闭/启动服务

sudo service mongodb stop

sudo service mongodb start

客户端登录服务器

启动日志如上,服务端启动如上,现在我们在另外一个终端测试服务器是否正常。

进入/usr/local/mongodb-linux-x86_64-202/bin,执行/mongo

出现

MongoDB shell version: 202

connecting to: test

执行

dbfoosave({1 : “Hello world”})

然后查找

dbfoofind();

看到

{ "_id" : ObjectId("4e4b395986738efa2d0718b9"), "1" : "hello world" }

执行到这里恭喜你,成功安装好了mongodb

也可以通过下面这种方式连接远程的mongodb server,默认端口为27017,比如

/mongo 1921683025

创建数据库

如果没有mydb数据库的话,在客户端中使用命令:

use mydb

将创建mydb数据库,而且当前数据库切换为mydb

此时show dbs不显示该数据库名称。使用dbstats()命令检查当前数据库状态。

标准检查流程

1首先检查 ulimit -a

查看open files (-n) 是否为设置的值

2

ps -def | grep mongod

查看该服务是否启动

3

cd /data/db/journal/

cat mongdblog

查看服务器是否正确

4进入>

以上就是关于mongodb与hbase全部的内容,包括:mongodb与hbase、Redis数据库跟MongoDB数据库有什么区别呢、linux下安装mongodb后怎么使用等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9660377.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-30
下一篇 2023-04-30

发表评论

登录后才能评论

评论列表(0条)

保存