NoSQL概述_随笔_内存溢出

NoSQL概述

为什么用NoSQL

1、单机MySQL的美好年代

2、Memcached（缓存）+ MySQL + 垂直拆分

3、MySQL主从读写分离

4、分表分库 + 水平拆分 + Mysql 集群

5、MySQL 的扩展性瓶颈

6、今天是什么样子？？

7、为什么用NoSQL？

什么是NoSQL

NoSQL

NoSQL的特点

1、易扩展

2、大数据量高性能

3、多样灵活的数据模型

4、传统的RDBMS VS NoSQL

拓展：3V+3高

经典应用分析

NoSQL数据模型简介

NoSQL四大分类

CAP + base

为什么用NoSQL 1、单机MySQL的美好年代在 90 年代，一个网站的访问量一般不大，用单个数据库完全可以轻松应付！在那个时候，更多的都是静态网页，动态交互类型的网站不多。上述架构下，我们来看看数据存储的瓶颈是什么？ 1. 数据量的总大小，一个机器放不下时 2. 数据的索引（ B+ Tree ）一个机器的内存放不下时 3. 访问量（读写混合）一个实例不能承受如果满足了上述 1 or 3 个，进化 .... DAL ：数据库访问层

2、Memcached（缓存）+ MySQL + 垂直拆分后来，随着访问量的上升，几乎大部分使用 MySQL 架构的网站在数据库上都开始出现了性能问题， web 程序不再仅仅专注在功能上，同时也在追求性能。程序猿们开始大量使用缓存技术来缓解数据库的压力，优化数据库的结构和索引，开始比较流行的是通过文件缓存来缓解数据库压力，但是当访问量继续增大的时候，多台 web 机器通过文件缓存不能共享，大量的小文件缓存也带了比较高的 IO 压力，在这个时候， Memcached 就自然的成为一个非常时尚的技术产品。

3、MySQL主从读写分离由于数据库的写入压力增加， Memcached 只能缓解数据库的读取压力，读写集中在一个数据库上让数据库不堪重负，大部分网站开始使用主从复制技术来达到读写分离，以提高读写性能和读库的可扩展性， MySQL 的 master-slave 模式成为这个时候的网站标配了。

4、分表分库 + 水平拆分 + Mysql 集群在 Memcached 的高速缓存， MySQL 的主从复制，读写分离的基础之上，这时 MySQL 主库的写压力开始出现瓶颈，而数据量的持续猛增，由于 MyISAM 使用表锁，在高并发下会出现严重的锁问题，大量的高并发 MySQL 应用开始使用 InnoDB 引擎代替 MyISAM 。同时，开始流行使用分表分库来缓解写压力和数据增长的扩展问题，这个时候，分表分库成了一个热门技术，是面试的热门问题，也是业界讨论的热门技术问题。也就是在这个时候， MySQL 推出了还不太稳定的表分区，这也给技术实力一般的公司带来了希望。虽然 MySQL 推出了 MySQL Cluster 集群，但性能也不能很好满足互联网的需求，只是在高可靠性上提供了非常大的保证。

5、MySQL 的扩展性瓶颈 MySQL 数据库也经常存储一些大文本的字段，导致数据库表非常的大，在做数据库恢复的时候就导致非常的慢，不容易快速恢复数据库，比如 1000 万 4KB 大小的文本就接近 40GB 的大小，如果能把这些数据从 MySQL 省去， MySQL 将变的非常的小，关系数据库很强大，但是它并不能很好的应付所有的应用场景， MySQL 的扩展性差（需要复杂的技术来实现），大数据下 IO 压力大，表结构更改困难，正是当前使用 MySQL 的开发人员面临的问题。 6、今天是什么样子？？

7、为什么用NoSQL？今天我们可以通过第三方平台（如： Google ， FaceBook 等）可以很容易的访问和抓取数据。用户的个人信息，社交网络，地理位置，用户生成的数据和用户 *** 作日志已经成倍的增加、我们如果要对这些用户数据进行挖掘，那 SQL 数据库已经不适合这些应用了，而 NoSQL 数据库的发展却能很好的处理这些大的数据！什么是NoSQL NoSQL NoSQL = Not only SQL ，意思：不仅仅是 SQL ；泛指非关系型的数据库，随着互联网 Web2.0 网站的兴起，传统的关系数据库在应付 web2.0 网站，特别是超大规模和高并发的社交网络服务类型的 Web2.0 纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展， NoSQL 数据库的产生就是为了解决大规模数据集合多种数据种类带来的挑战，尤其是大数据应用难题，包括超大规模数据的存储。（例如谷歌或 Facebook 每天为他们的用户收集万亿比特的数据）。这些类型的数据存储不需要固定的模式，无需多余 *** 作就可以横向扩展。 NoSQL的特点 1、易扩展 NoSQL 数据库种类繁多，但是一个共同的特点都是去掉关系数据库的关系型特性。数据之间无关系，这样就非常容易扩展，也无形之间，在架构的层面上带来了可扩展的能力。 2、大数据量高性能 NoSQL 数据库都具有非常高的读写性能，尤其是在大数据量下，同样表现优秀。这得益于它的非关系性，数据库的结构简单。一般 MySQL 使用 Query Cache ，每次表的更新 Cache 就失效，是一种大力度的 Cache ，在针对 Web2.0 的交互频繁应用， Cache 性能不高，而 NoSQL 的 Cache 是记录级的，是一种细粒度的 Cache ，所以 NoSQL在这个层面上来说就要性能高很多了。官方记录： Redis 一秒可以写 8 万次，读 11 万次！ 3、多样灵活的数据模型 NoSQL 无需事先为要存储的数据建立字段，随时可以存储自定义的数据格式，而在关系数据库里，增删字段是一件非常麻烦的事情。如果是非常大数据量的表，增加字段简直就是噩梦。 4、传统的RDBMS VS NoSQL

传统的关系型数据库 RDBMS - 高度组织化结构化数据 - 结构化查询语言（ SQL ） - 数据和关系都存储在单独的表中 - 数据 *** 纵语言，数据定义语言 - 严格的一致性 - 基础事务 NoSQL - 代表着不仅仅是 SQL - 没有声明性查询语言 - 没有预定义的模式 - 键值对存储，列存储，文档存储，图形数据库 - 最终一致性，而非 ACID 属性 - 非结构化和不可预知的数据 - CAP 定理 - 高性能，高可用性和可伸缩性

拓展：3V+3高

大数据时代的 3V ：主要是对问题的描述
海量 Volume
多样 Variety
实时 Velocity
互联网需求的 3 高：主要是对程序的要求
高并发
高可用
高性能
当下的应用是 SQL 和 NoSQL 一起使用，技术没有高低之分，就看怎么用！

经典应用分析聊聊阿里巴巴中文网站的商品信息如何存放，以女装、包包为例：

聊聊架构发展历程：推荐书籍《淘宝技术这十年》

1 、演变过程：以下图片资料来源：阿里巴巴中文站架构设计实践 2 、第五代 3 、第 5 代架构使命

和我们相关的，多数据源多数据类型的存储问题

1、商品的基本信息

名称、价格、出厂日期、生产厂商等关系型数据库： mysql 、 oracle 目前淘宝在去 O 化（也即，拿掉 Oracle ）注意，淘宝内部用的 MySQL 是里面的大牛自己改造过的。为什么去 IOE ： 2008 年 , 王坚博士加入阿里巴巴，成为首席架构师。把云计算植入阿里 IT 基因。 2013 年 5 月 17 日，阿里集团最后一台 IBM 小机在支付宝下线。这是自 2009 年 “ 去 IOE” 战略透露以来， “ 去 IOE” 非常重要的一个节点。 “ 去 IOE” 指的是摆脱掉 IT 部署中原有的 IBM 小型机、 Oracle 数据库以及 EMC 存储的过度依赖。告别最后一台小机，意味着整个阿里集团尽管还有一些 Oracle 数据库和 EMC 存储，但是 IBM 小型机已全部被替换。 2013 年 7 月 10 日，淘宝重中之重的广告系统使用的 Oracle 数据库下线，也是整个淘宝最后一个 Oracle 数据库。这两件事合在一起是阿里巴巴技术发展过程中的一个重要里程碑。

2、商品描述、详情、评价信息（多文字类）

多文字信息描述类， IO 读写性能变差存在文档数据库 MongDB 中

3、商品的图片

商品图片展现类分布式文件系统中
- 淘宝自己的 TFS
- Google的 GFS
- Hadoop的 HDFS

4、商品的关键字

搜索引擎，淘宝内用 ISearch ：多隆一高兴一个人开发的所有牛逼的人在牛逼之前 , 肯定有一段苦逼的岁月 , 但只要像傻逼一样的坚持 , 一定终将牛逼

1 2 3 4 5 5、商品的波段性的热点高频信息

内存数据库 Tair 、 Redis 、 Memcache 等

6、商品的交易，价格计算，积分累计！

外部系统，外部第三方支付接口支付宝

大型互联网应用（大数据，高并发，多样数据类型）的难点和解决方案

难点：

数据类型的多样性
数据源多样性和变化重构
数据源改造而数据服务平台不需要大面积重构

解决办法：

NoSQL数据模型简介

案例设计

以一个电商客户，订单，订购，地址模型来对比下关系型数据库和非关系型数据库传统的关系型数据库你如何设计？ ER 图（ 1:1/1:N/N:N, 主外键等常见）

用户对应多个订单多个地址
每个订单对应每个商品、价格、地址
每个商品对应产品

闲聊：用户画像分析，女人心是琢磨不透的，看了男装，剃须刀，根据她的信息找到她男朋友的生日就在最近，后台画像已经分析完毕，准备推送广告了，结果她买了一个零食就走了 ~ 90 后的程序员真的在一点点的改变生活中的点点滴滴，假设你有幸进入了大厂，你会发现周围的小伙伴都在努力，真的就是那种可以在海底捞吃着吃着饭，突然就掏出笔记本写代码的那种，别人都以为他们是疯子，只有他们自己内心才懂。这才是对技术的痴迷。

NoSQL 你如何设计

可以尝试使用 BSON 。 BSON 是一种类 json 的一种二进制形式的存储格式，简称 Binary JSON ，它和 JSON 一样，支持内嵌的文档对象和数组对象用 BSon 画出构建的数据模型

{
"customer":{
    "id":1000,
    "name":"Z3",
    "billingAddress":[{"city":"beijing"}],
    "orders":[
    {
    "id":17,
    "customerId":1000,
    "orderItems":[{"productId":27,"price":77.5,"productName":"thinking in
java"}],
    "shippingAddress":[{"city":"beijing"}]
    "orderPayment":[{"ccinfo":"111-222-
333","txnid":"asdfadcd334","billingAddress":{"city":"beijing"}}],
            }
        ]
    }
}

想想关系模型数据库你如何查？如果按照我们新设计的 BSon ，是不是查询起来很简单。

高并发的 *** 作是不太建议有关联查询的，互联网公司用冗余数据来避免关联查询
分布式事务是支持不了太多的并发的

NoSQL四大分类 KV 键值：

新浪：BerkeleyDB+redis
美团：redis+tair
阿里、百度：memcache+redis

文档型数据库 (bson 格式比较多 ) ：

CouchDB
MongoDB
- MongoDB 是一个基于分布式文件存储的数据库。由 C++ 语言编写。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。
- MongoDB 是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。

列存储数据库：

Cassandra, Hbase
分布式文件系统

图关系数据库

它不是放图形的，放的是关系比如:朋友圈社交网络、广告推荐系统
社交网络，推荐系统等。专注于构建关系图谱
Neo4J, InfoGrid

四者对比

CAP + base

传统的 ACID 分别是什么？

关系型数据库遵循 ACID 规则，事务在英文中是 transaction ，和现实世界中的交易很类似，它有如下四个特性： A (Atomicity) 原子性

原子性很容易理解，也就是说事务里的所有 *** 作要么全部做完，要么都不做，事务成功的条件是事务里的所有 *** 作都成功，只要有一个 *** 作失败，整个事务就失败，需要回滚。
比如银行转账，从A账户转100元至B账户，分为两个步骤：
1）从A账户取100元；
2）存入100元至B账户。
这两步要么一起完成，要么一起不完成，如果只完成第一步，第二步失败，钱会莫名其妙少了100元。

C (Consistency) 一致性

事务前后数据的完整性必须保持一致。

I (Isolation) 隔离性

所谓的独立性是指并发的事务之间不会互相影响，如果一个事务要访问的数据正在被另外一个事务修改，只要另外一个事务未提交，它所访问的数据就不受未提交事务的影响。比如现有有个交易是从A 账户转100元至B账户，在这个交易还未完成的情况下，如果此时B查询自己的账户，是看不到新增加的100元的

D (Durability) 持久性

持久性是指一旦事务提交后，它所做的修改将会永久的保存在数据库上，即使出现宕机也不会丢失。

CAP （三进二）

C : Consistency（强一致性）
A : Availability（可用性）
P : Partition tolerance（分区容错性）

CAP 理论就是说在分布式存储系统中，最多只能实现上面的两点。而由于当前的网络硬件肯定会出现延迟丢包等问题，所以分区容错性是我们必须需要实现的。所以我们只能在一致性和可用性之间进行权衡，没有 NoSQL 系统能同时保证这三点。注意：分布式架构的时候必须做出取舍。一致性和可用性之间取一个平衡。多余大多数 web 应用，其实并不需要强一致性。因此牺牲 C 换取 P ，这是目前分布式数据库产品的方向. 一致性与可用性的决择对于 web2.0 网站来说，关系数据库的很多主要特性却往往无用武之地数据库事务一致性需求很多 web 实时系统并不要求严格的数据库事务，对读一致性的要求很低，有些场合对写一致性要求并不高。允许实现最终一致性。数据库的写实时性和读实时性需求对关系数据库来说，插入一条数据之后立刻查询，是肯定可以读出来这条数据的，但是对于很多 web 应用来说，并不要求这么高的实时性，比方说发一条消息之后，过几秒乃至十几秒之后，我的订阅者才看到这条动态是完全可以接受的。对复杂的 SQL 查询，特别是多表关联查询的需求任何大数据量的 web 系统，都非常忌讳多个大表的关联查询，以及复杂的数据分析类型的报表查询，特别是 SNS 类型的网站，从需求以及产品设计角度，就避免了这种情况的产生。往往更多的只是单表的主键查询，以及单表的简单条件分页查询， SQL 的功能被极大的弱化了。 CAP 理论的核心是：一个分布式系统不可能同时很好的满足一致性，可用性和分区容错性这三个需求，最多只能同时较好的满足两个。因此，根据 CAP 原理将 NoSQL 数据库分成了满足 CA 原则、满足 CP 原则和满足 AP 原则三大类： CA - 单点集群，满足一致性，可用性的系统，通常在可扩展性上不太强大。 CP - 满足一致性，分区容忍必的系统，通常性能不是特别高。 AP - 满足可用性，分区容忍性的系统，通常可能对一致性要求低一些。

base 理论

base 理论是由 eBay 架构师提出的。 base 是对 CAP 中一致性和可用性权衡的结果，其来源于对大规模互联网分布式系统实践的总结，是基于 CAP 定律逐步演化而来。其核心思想是即使无法做到强一致性，但每个应用都可以根据自身业务特点，采用适当的方式来使系统达到最终一致性。 base 就是为了解决关系数据库强一致性引起的问题而引起的可用性降低而提出的解决方案。

base其实是下面三个术语的缩写：

基本可用(Basically Available)：基本可用是指分布式系统在出现故障的时候，允许损失部分可用性，即保证核心可用。电商大促时，为了应对访问量激增，部分用户可能会被引导到降级页面，服务层也可能只提供降级服务。这就是损失部分可用性的体现。
软状态(Soft State)：软状态是指允许系统存在中间状态，而该中间状态不会影响系统整体可用性。分布式存储中一般一份数据至少会有三个副本，允许不同节点间副本同步的延时就是软状态的体现。MySQL Replication 的异步复制也是一种体现。
最终一致性(Eventual Consistency)：最终一致性是指系统中的所有数据副本经过一定时间后，最终能够达到一致的状态。弱一致性和强一致性相反，最终一致性是弱一致性的一种特殊情况。

它的思想是通过让系统放松对某一时刻数据一致性的要求来换取系统整体伸缩性和性能上改观。为什么这么说呢，缘由就在于大型系统往往由于地域分布和极高性能的要求，不可能采用分布式事务来完成这些指标，要想获得这些指标，我们必须采用另外一种方式来完成，这里 base 就是解决这个问题的办法！解释：

分布式：不同的多台服务器上面部署不同的服务模块（工程），他们之间通过Rpc通信和调用，对外提供服务和组内协作。
集群：不同的多台服务器上面部署相同的服务模块，通过分布式调度软件进行统一的调度，对外提供服务和访问。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5689052.html

NoSQL概述

发表评论

评论列表（0条）