mongodb与hbase_工具

HBase没有研究过，因为我们公司用Erlang开发，这个数据库直接不支持。

mongodb当时选型的时候部分数据可以给你看看，最后也没有选：

mongodb

一、性能

1在mongodb shell中对单个数据库中未建立索引插入100万条数据时花费1分钟左右时间。建立索引后100W条数据时性能下降不明显。

插入速度 > 10000/s

2使用Tony编写的Erlang－mongodb驱动用编程语言对单个数据库插入100W条数据，每个数据7个字段，没有建立索引的情况下花费大约3分钟。

插入速度 > 5000/s

3使用Tony编写的Erlang－mongodb驱动用编程语言向有3个数据节点2个arbiter的副本集（replica set）插入100W条数据时花费13分钟左右。

插入速度 > 1000/s

4使用Tony编写的Erlang－mongodb驱动用编程语言，有500个并发时，向有3个数据节点2个arbiter的副本集（replica set）插入100W条数据时花费13分钟左右。

插入速度 > 1000/s

5在1000W条数据时对创建索引的信息查询时性能都很不错。

6索引大小大于内存时查询性能会急剧下降。

二、可靠性

1单机可靠性通过journal保证。

journal相当于redo日志，是mongodb存储在磁盘上的 *** 作日志。系统默认每100ms会将 *** 作写入journal文件，journal文件再将 *** 作对内存中的shared view进行修改。系统默认每60s会将内存中的shared view写入硬盘的数据库文件。数据文件由shared view写入数据文件，journal文件中已输出到数据文件的 *** 作会被删除。如果发生非正常关闭，重新打开时mongodb的journal上的写 *** 作会重演。

写 *** 作图解：

默认每100ms（该参数通过启动mongos时de journalCommitInterval设置）将 *** 作写入磁盘上的journal，journal会将 *** 作写入内存中的shared view

默认每60秒（该参数通过启动mongod时使用syscdelay设置）shared view会将数据写入磁盘上的数据文件中，被写入磁盘的 *** 作会从journal中删除

2mongodb通过replica set提高集群的可靠性。

replica set正常运行时在其中由一个primary和若干个secondary和arbiter。仅可以对primary进行读写 *** 作，通过连接上secondary并设置rsslaveOk()后可以对secondary进行读 *** 作。对primary的写 *** 作会自动同步到状态正常的secondary上。

当primary非正常退出时replica set会自动选出新的primary，并可以保持继续运行。在节点切换时会有短时间无法进行写 *** 作。replica set中可以参加选举的节点越多，系统能够保证在更多节点崩溃时继续运行。同一个replica set中具有选举权的节点不能超过七个。

需要注意的地方：

（replica set中增加数据节点似乎会降低写入的速度，还要进一步核实。）

。。。。。。

三、对写入失败的处理

为了减少写 *** 作等待时间，默认情况下写入失败时mongodb不会返回错误信息。

。。。。。。

四、事务

MongoDB只支持对单行记录的原子性修改，并不支持对多行数据的原子 *** 作。通过一些 *** 作步骤，实际上也可以自己实现该事务。其步骤如下：

。。。。。

五、使用中其他可能遇到的问题

1存储空间占用不断增大

。。。。

因为是之前花了很久实验的结果，公司也不让随便发这些东西，全文不能这里透露，你可以留邮箱，发给你

Redis

骑行天下_徐鑫

关注

redis和MongoDB比较转载

2019-07-02 22:00:52

1点赞

骑行天下_徐鑫

码龄3年

关注

Redis技术陷阱

Redis 基于内存，也可以基于磁盘持久化NoSql数据库，使用 c语言编写，常用端口6379

Redis对内存依赖性很强的NoSql数据库，在内存足够的情况下性能出色，但是一般情况下，服务器内存并没有那么多。

一般情况下，Redis会索取大量服务器内存进行存储数据，以达到快速读取查询的效果。当对Redis插入数据后，redis会异步将数据dump到硬盘中，

比如服务器内存是20G，Redi会fork一个进程，并且会占用同样的大小内存，他需要的内存空间瞬间变为20+20=40G，这是内存超过了物理内存的限制，马上会启动虚拟内存，虽然服务器会有虚拟内存，但是那是服务器的虚拟内存，并不是redis自己的虚拟内存。

Linux虚拟内存page很大，IO剧增，dump速度非常慢，整个服务器的性能降到冰点，服务请求会堵塞，严重到服务器崩溃。

对于单台机子，最好是降低redis虚拟内存设置，page可以根据配置进行修改，这个虚拟内存比Linux虚拟内存好多，因为page小很多。

如果Redis既要读又要写，那么最好不要用redis占用大半的内存。

可以设置它的虚拟内存到8G,但是要根据key值大小去衡量，因为key必须在内存中，这样一来就算是启用了虚拟内存，redis占用的实际内存也会超出设想。

官方建议对key小，value很大的数据设置虚拟内存。

另外master/slave不是很成熟，目前只支持主从，Redis在master是非阻塞模式，也就是说在slave执行数据同步的时候，master是可以接受客户端的请求的，并不影响同步数据的一致性，然而在slave端是阻塞模式的，slave在同步master数据时，并不能响应客户端的查询。

可以根据master/slave 的特点，master不dump,只负责写数据，让slaver去dump

Redis如何持久化：持久化就是将内存中的数据写入到硬盘中。

（1）：RDB：是将数据写入到临时文件（dumprdb）,持久化之后用这个临时文件替换上次持久化文件，达到数据恢复的目的。RDB是间隔异地短时间进行持久化，如果持久化之间redis发生故障，会发生数据丢失，所以这种方式更适合数据要求不严谨的时候，默认开启。

（2）：Redis内存淘汰策略：指的是用户存储的一些键可以被redis主动从实例中删除，从而产生miss的情况，内存淘汰是为了更好地使用内存，用一定的缓存miss来换取内存的使用率。① noeviction:默认策略，不删除任意数据，但是内存不够时，会直接返回错误

② Allkeys-lru:从数据集中(包括设置过期时间和未设置过期时间的数据集)，优先移除最近未使用的key

③ Volatile-lru:在设置了过期时间的数据集中，优先移除最近未使用的key

④ Allkeys-random:从数据集中(包括设置过期时间和未设置过期时间的数据集)，随机移除某个key

⑤ Volatile-random:在设置了过期时间的数据集中，随机移除某个key

Volatile-ttl:在设置了过期时间的数据集中，具有更早过期时间的key优先移除。

Redis有些数据类型：String Hash List Sets ZSets(存放多个值，不可有重复，有顺序，不同的是每个元素都会关联Double类型的分数，redis正是通过分数来为集合中的成员进行从小到大排序)，

Redis使用场景：

缓存热数据使用，热数据就是在项目中经常会被查询，但不经常会被修改和删除的数据。

计数器，诸如统计点击数等应用。

队列

位 *** 作（大数据处理），比如统计QQ用户在线。

mongodb与hbase

发表评论

评论列表（0条）